万维网时代,信息的传播速度加快,信息的价值不断增长。Web数据挖掘的出现,带来了信息的革命。Web数据挖掘从数据挖掘的定义扩展而来,又不同于传统的数据挖掘,其对象、方法更为广泛。根据挖掘对象,Web数据挖掘可分为内容挖掘、使用挖掘以及结构挖掘。Web内容挖掘的数据对象众多,包括结构化数据、半结构化数据、非结构化数据。
从不同的角度出发,Web内容挖掘具有不同的目标。从资源搜索的角度(又名用户的角度)来看,Web内容挖掘的目标在于提高信息质量,并帮助用户过滤信息,提取最重要的信息;从数据库的角度来看,其任务则是对数据进行集成、建模和存储,以支持数据的复杂查询。
根据分类方法的不同,Web内容挖掘可划分为多种类型。Web内容挖掘的实现方法包括信息检索方法和数据库方法。信息检索方法又名基于代理的方法,主要是应用信息检索技术对信息进行评价和改进,以提高信息的质量。广义数据库方法是狭义数据库方法和数据仓库方法的统称,其都是将非结构化或半结构化数据进行结构化处理,然后利用数据挖掘技术提取有用信息的过程。按挖掘策略的不同,划分为Web页面内容挖掘和搜索引擎结果挖掘。前者是指直接对Web页面信息进行挖掘,而后者是指在搜索引擎查询结果的基础上,做进一步信息处理与加工,以得到更有价值的信息。按挖掘内容的不同,划分为Web文本挖掘和Web多媒体挖掘。Web文本挖掘是指采用分类、聚类等方式,对Web上的文本集合的内容进行处理,从中提取有用的知识的过程。Web多媒体挖掘则是借助关联规则法或特征提取法,从Web多媒体数据(如图形、图像、音频等)中提取有用信息。
常用的Web内容挖掘的工具有Web Info Extractor、Screen-Scraper、Intelligent Miner for Text、Text Analyst等,可用于特征提取、文本分类、聚类、自动摘要等。
Web内容挖掘是一个全新的交叉领域,覆盖面广,在信息提取、汇总和存储等方面发挥重要作用,未来将广泛应用于企业客户管理、情报收集、国家安全等关键领域。