Web结构挖掘适用于挖掘Web内部的超链接结构。这里的“结构”表示站点内或站点间的链接,例如不同网页之间的超链接结构、网页内部以HTML、XML表示的树形结构和文件URL中的目录路径结构等。通过对页面的结构和Web的结构进行获取、分析和整理,可以完成对Web页面的分类,快速找到有价值的、可信度高的页面,提高信息的检索效率。
Web结构挖掘根据挖掘目标的不同,可分为超链接挖掘和页面结构挖掘。由于超文本链接的存在,万维网上网页的信息远比其所包含的文本内容要多。举例来说,指向文件的链接的数目一定程度上可以反映该文件的受欢迎程度,而来自文件的链接则反映文件中内容的丰富程度或主题的多样性。这种模式类似于文献引用。如果一篇论文经常被引用,那么其应该是有价值的。
Web链接的拓扑结构促进了对超链接集群(Hyper Linked Communities)的研究。超链接集群包含着一个核心页面和与之相连的中转页面。其自然地表现出主题的层次结构,这种结构可以从模型链接中直接推断出来。这也提供了一个观察Web发展的新的视角。合理使用这些链接所传递的信息,可以完成页面排序,进而发现有价值的页面。
广泛应用的Web结构挖掘算法有被Google搜索引擎采用的网页排名(PageRank)算法和HITS算法。因为用户很少会将所有的搜索结果浏览一遍,这就需要网页排名算法将与用户目标相关性强的页面排名靠前,然而这其中参数涉及很多方面,如匹配度的权重、信息源权威性的权重和相关用户的权重,很难找到反映这种相关性的确定公式,这也限制了网页排名算法的应用范围。HITS算法的优点是该算法只涉及少量的页面,它的权重只与目标主题有关,而缺点则是其具备不稳定性,对特定的目标主题会出现泛化和分散等现象。
聚焦爬取(Focused Crawling)也是从Web挖掘中衍生出的新的技术手段。在这种技术中,爬虫程序的目标是有选择地寻找与预定义的主题集相关的页面,但主题不是通过关键字指定的,而是使用示例文件设置的。这样爬虫程序可以分析出其爬行边界,爬行与之最相关的链接,减少爬取不相关的区域。这种技术可以保持爬取的更新速度,且大大节约了硬件与网络资源。