Web内容挖掘

首页 . 管理学 . 管理科学与工程 . 电子商务与商务智能 . 电子商务法 . Web内容挖掘

/Web content mining/

条目作者陈熹

陈熹

最后更新 2022-12-23

浏览 148次

最后更新 2022-12-23

浏览 148次

0 意见反馈条目引用

一种主要利用文本分类、文本聚类、文本可视化、自动摘要等技术，从大量的Web内容中发现信息、提取有用信息的Web数据挖掘方法。

英文名称: Web content mining

所属学科: 管理科学与工程

万维网时代，信息的传播速度加快，信息的价值不断增长。Web数据挖掘的出现，带来了信息的革命。Web数据挖掘从数据挖掘的定义扩展而来，又不同于传统的数据挖掘，其对象、方法更为广泛。根据挖掘对象，Web数据挖掘可分为内容挖掘、使用挖掘以及结构挖掘。Web内容挖掘的数据对象众多，包括结构化数据、半结构化数据、非结构化数据。

从不同的角度出发，Web内容挖掘具有不同的目标。从资源搜索的角度（又名用户的角度）来看，Web内容挖掘的目标在于提高信息质量，并帮助用户过滤信息，提取最重要的信息；从数据库的角度来看，其任务则是对数据进行集成、建模和存储，以支持数据的复杂查询。

根据分类方法的不同，Web内容挖掘可划分为多种类型。Web内容挖掘的实现方法包括信息检索方法和数据库方法。信息检索方法又名基于代理的方法，主要是应用信息检索技术对信息进行评价和改进，以提高信息的质量。广义数据库方法是狭义数据库方法和数据仓库方法的统称，其都是将非结构化或半结构化数据进行结构化处理，然后利用数据挖掘技术提取有用信息的过程。按挖掘策略的不同，划分为Web页面内容挖掘和搜索引擎结果挖掘。前者是指直接对Web页面信息进行挖掘，而后者是指在搜索引擎查询结果的基础上，做进一步信息处理与加工，以得到更有价值的信息。按挖掘内容的不同，划分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘是指采用分类、聚类等方式，对Web上的文本集合的内容进行处理，从中提取有用的知识的过程。Web多媒体挖掘则是借助关联规则法或特征提取法，从Web多媒体数据（如图形、图像、音频等）中提取有用信息。

常用的Web内容挖掘的工具有Web Info Extractor、Screen-Scraper、Intelligent Miner for Text、Text Analyst等，可用于特征提取、文本分类、聚类、自动摘要等。

Web内容挖掘是一个全新的交叉领域，覆盖面广，在信息提取、汇总和存储等方面发挥重要作用，未来将广泛应用于企业客户管理、情报收集、国家安全等关键领域。

扩展阅读

JOHNSON， F.， & GUPTA， S. K．Web content mining techniques: a survey．International Journal of Computer Applications，2012，47（11）：44-50．
BHARANIPRIYA， V.， & PRASAD， V. K．Web content mining tools: a comparative study．International Journal of Information Technology and Knowledge Management，2011，4（1）：211-215．
朱丽红，赵燕平．Web挖掘研究综述．情报杂志，2004，23（7）：2-5．
涂承胜，鲁明羽，陆玉昌．Web内容挖掘技术研究．计算机应用研究，2003，（11）：7-11．