在网络理论中,链接分析是一种用于评估节点之间关系的数据分析技术。这些关系可以是各种类型的对象(节点)之间的关系,包括人员、组织甚至交易事务。链接分析常用于搜索引擎优化、智能、安全分析、市场和医学研究等领域。
链接分析的任务主要可分为三类:①基于链接的节点分类(link-based object classification)。即根据链接的特征将类标签赋予节点。常见的算法有迭代分类(Iterative classification)和松弛标记(relaxation labeling)。②基于链接的节点排序(link-based object ranking)。即使用基于链接的度量对节点的重要程度进行排序。常见的算法有PageRank算法、HITS算法和SimRank算法。③链接预测或链路预测(link prediction)。即通过已知的网络节点以及网络结构等信息预测网络中尚未产生链接的两个节点之间产生链接的可能性。常见的算法有基于节点邻居的方法、基于路径的方法等。链路预测算法被广泛地用于推荐系统、设施规划等问题中。
Web挖掘中的链接分析,又称网络链接分析、超链分析,可广义理解为以Web中页面间的超链接为研究对象的分析活动,具体定义为:一种以网络连接为研究对象,根据引文分析法的基本原理和方法,对网络连接的分布规律和网络信息单元之间的链接规律进行分析研究的网络信息计量学的特征研究方法。
网络链接分析在Web搜索发展中起着重要的作用。早期的搜索引擎主要基于检索网页内容与用户查询的相似性为用户查找相关的网页。但由于网页数目的飞速增长以及基于内容相似性的检索方式容易被一些作弊手段所欺骗,仅靠内容相似性的搜索方法变得不再有效。从1996年起,研究者发现网页的超链接可以在一定程度上反映网页的重要性。指向外部网站的超链接往往隐含说明了被指向网页的权威性,因此那些被众多网页指向的网页很可能含有权威的或有价值的信息。这些链接显然更应该被用在页面评级或者搜索引擎的页面排序中。两个最有影响力的搜索引擎算法PageRank和HITS就是基于链接分析得到的。其都利用了网页的超链接结构并根据网页的权威程度对网页进行分级排序。因此,这两种搜索引擎算法在本质上是一种基于链接分析的节点排序算法。