首页 . 管理学 . 管理科学与工程 . 电子商务与商务智能 . 电子商务法 . Web内容挖掘

Web内容挖掘

/Web content mining/
条目作者陈熹

陈熹

最后更新 2022-12-23
浏览 148
最后更新 2022-12-23
浏览 148
0 意见反馈 条目引用

一种主要利用文本分类、文本聚类、文本可视化、自动摘要等技术,从大量的Web内容中发现信息、提取有用信息的Web数据挖掘方法。

英文名称
Web content mining
所属学科
管理科学与工程

万维网时代,信息的传播速度加快,信息的价值不断增长。Web数据挖掘的出现,带来了信息的革命。Web数据挖掘从数据挖掘的定义扩展而来,又不同于传统的数据挖掘,其对象、方法更为广泛。根据挖掘对象,Web数据挖掘可分为内容挖掘、使用挖掘以及结构挖掘。Web内容挖掘的数据对象众多,包括结构化数据、半结构化数据、非结构化数据。

从不同的角度出发,Web内容挖掘具有不同的目标。从资源搜索的角度(又名用户的角度)来看,Web内容挖掘的目标在于提高信息质量,并帮助用户过滤信息,提取最重要的信息;从数据库的角度来看,其任务则是对数据进行集成、建模和存储,以支持数据的复杂查询。

根据分类方法的不同,Web内容挖掘可划分为多种类型。Web内容挖掘的实现方法包括信息检索方法和数据库方法。信息检索方法又名基于代理的方法,主要是应用信息检索技术对信息进行评价和改进,以提高信息的质量。广义数据库方法是狭义数据库方法和数据仓库方法的统称,其都是将非结构化或半结构化数据进行结构化处理,然后利用数据挖掘技术提取有用信息的过程。按挖掘策略的不同,划分为Web页面内容挖掘和搜索引擎结果挖掘。前者是指直接对Web页面信息进行挖掘,而后者是指在搜索引擎查询结果的基础上,做进一步信息处理与加工,以得到更有价值的信息。按挖掘内容的不同,划分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘是指采用分类、聚类等方式,对Web上的文本集合的内容进行处理,从中提取有用的知识的过程。Web多媒体挖掘则是借助关联规则法或特征提取法,从Web多媒体数据(如图形、图像、音频等)中提取有用信息。

常用的Web内容挖掘的工具有Web Info Extractor、Screen-Scraper、Intelligent Miner for Text、Text Analyst等,可用于特征提取、文本分类、聚类、自动摘要等。

Web内容挖掘是一个全新的交叉领域,覆盖面广,在信息提取、汇总和存储等方面发挥重要作用,未来将广泛应用于企业客户管理、情报收集、国家安全等关键领域。

  • JOHNSON, F., & GUPTA, S. K.Web content mining techniques: a survey.International Journal of Computer Applications,2012,47(11):44-50.
  • BHARANIPRIYA, V., & PRASAD, V. K.Web content mining tools: a comparative study.International Journal of Information Technology and Knowledge Management,2011,4(1):211-215.
  • 朱丽红,赵燕平.Web挖掘研究综述.情报杂志,2004,23(7):2-5.
  • 涂承胜, 鲁明羽, 陆玉昌.Web内容挖掘技术研究.计算机应用研究,2003,(11):7-11.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!