链接分析是基于一定的假设。研究者将其总结为:从网页A指向网页B的超链接是网页A对网页B的推荐或认可;如果一条超链接将网页A和网页B链接起来,则网页A和网页B可能有共同的主题。在假设的基础上,链接分析发展了一系列测度指标,大体可分为4类:①链接数量特征计量指标,如总链接数、出链数。②链接分布特征计量指标,如链接密度、页面平均链接数、网络使用因子。③网站影响力计量指标,如入链数、网络影响因子、链接倾向。④网页重要性计量指标,如PageRank算法如(见图,图中笑脸的大小与指向该笑脸的其他笑脸的数目成正比)、HITS算法等。
应用最广泛、关注最多的计量指标是入链数和出链数、网络影响因子和网络使用因子。①入链数和出链数。入链是指向某个网页的链接,类似于引文分析中的“被引用”。入链数反映了网页被重视和利用的程度。出链是从某个网页出发的链接,故出链数类似于引文分析中的“引文数”。出链数反映了网页指向能力的大小,出链数越大,则该网页的指向能力越强。②网络影响因子。是利用网站获得的链接数计量网站影响力。网络影响因子越高,说明网站的影响力越大,则网站或网页的质量越高。研究者将其定义为指定时间内,指向某一国家或网站的外部入链和内部入链网页数的和与该国家或网站内部的网页数的比值,即:
③网络使用因子。用于反映某一国家或网站的网页指向其他网页能力的分布情况,可以用来测度某一国家或网站的链接分布特征。某一国家或网站的出链数除以网页数、科研人员数或科研生产率便得到了网页平均出链数、科研人员平均出链数或科研生产率的平均出链数,即网络使用因子。其值越高,说明网站利用其他网络信息资源的程度越高,该网站的信息数量和质量也就可能越高。
计算上述指标所需的数据,主要通过商业搜索引擎和网络爬行器获得。而分析结果则广泛应用于网络信息资源评价、网站网络影响力评价、大学评价、核心网络与核心作者发现、竞争情报与竞争对手分析、网站关联分析、期刊评价、网络社区发现(如博客群、虚拟社区等)以及搜索引擎优化等各个方面。