搜索结果与查询需求的相关性是衡量搜索引擎性能的重要指标。搜索引擎根据查询内容判断哪些网页更符合用户搜索意图,将用户最感兴趣的网页排列在前面,方便用户在最短时间内找到需要的信息,提高搜索引擎的用户满意度。
搜索引擎基于内容的相关性排序的信息检索模型主要包含向量空间模型、概率模型和自学习排序模型。向量空间模型将网页内容和用户查询分别转化为向量形式,计算两个向量的夹角余弦,并按照递减的顺序排列网页。向量空间模型采用统计学方法的词加权处理模式,将文本和查询信息表示为向量形式,实现了检索结果按相关性排序的要求,并且可以灵活控制检索结果的规模。然而向量空间模型理论明显的缺陷基于它的基本假设:关键词是彼此独立的。概率模型通过估计网页内容与查询相关联的概率,根据关联概率对所有网页进行排序。概率模型的主要优点是理论上有一定依据,“相关”可以解释成一种后验概率,“相似度”可以解释成两个后验概率的比值。其缺点在于它仍然基于关键词相互独立的假设。自学习排序模型将机器学习的方法运用到搜索引擎相关性排序问题,解决了以往模型的许多不足之处。它根据训练样本来学习排序模型,再将排序模型预测与查询相关的网页排序。