互联网挖掘是数据挖掘技术在互联网上的应用,通过机器学习、统计分析等方法得到数据的特性,从互联网上的资源和行为中抽取感兴趣的、有用的信息。
与传统数据相比,互联网上的信息是非结构化或半结构化的、动态更新的,所以要进行数据挖掘,就必须经过必要的数据处理。
互联网挖掘通常分为互联网内容和结构挖掘、互联网使用记录挖掘。
①互联网内容和结构挖掘是指从互联网文档内容中获取有用知识的过程,同时也可以对互联网组织结构和链接关系进行挖掘,从人为的链接结构中获取有用的知识。由于文档之间的互相关联,因此能够提供一些文档内容之外的信息,利用这些信息对页面进行排序,进而发现重要的页面。互联网内容挖掘多数是基于文本信息的挖掘,它和通常的文本挖掘技术比较类似。但由于互联网上的数据基本上都是网页格式,因此可以利用文档中的HTML标记来提高互联网文本挖掘的性能。
②互联网使用记录挖掘是指通过挖掘互联网日志记录,来发现用户访问互联网的行为模式。由于用户行为复杂多样,挖掘出准确的用户访问模式是一个非常复杂问题。