检索效果评价

首页 . 管理学 . 图书馆学 . 信息检索 . 【信息检索基本概念】 . 检索效果评价

/retrieval evaluation/

条目作者吴丹

吴丹

最后更新 2024-01-31

浏览 196次

最后更新 2024-01-31

浏览 196次

0 意见反馈条目引用

对信息检索的结果与满足实际需要程度的衡量。

英文名称: retrieval evaluation

所属学科: 图书馆学

检索效果包括技术效果和经济效果两方面。技术效果主要指检索系统的性能和服务质量，是由检索系统实现其功能的能力所确定的；经济效果主要指检索系统服务所花费的成本和时间，是由检索系统完成其检索服务的代价所确定的。

系统检索效果评价指标

查全率和查准率

查全率（在机器学习领域也译为召回率）衡量的是搜索引擎找到所有相关文档的能力；查准率（在机器学习领域也译为正确率）衡量的是排除不相关文档的能力。

基于二元相关性的简单检索定义的文档集
	相关的	不相关的
被检索	$A\cap B$	$\overline{A}\cap B$
未被检索	$A\cap \overline{B}$	$\overline{A}\cap \overline{B}$

假定对于一个给定查询，将有一个被检索的文档集，以及一个未被检索（其余的文档）的文档集。如果相关性被假设为二元的，那么对于一个查询的结果，可以如上表所示。表中，A是相关文档集合， $\overline{A}$ 是不相关集合，B是被检索到的文档集合， $\overline{B}$ 是未被检索到的文档集合。运算符∩给出两个集合的交集。例如A∩B是相关并且被检索到的文档集合。查全率表示相关文档被检出的比率，计算公式为：

$查全率R=\frac{|A∩B|}{|A|}=\frac{返回结果中相关文档的数目}{所有相关文档的数目}\times 100\%$ …（1）

查准率是计算机检出的文档中相关文档的比率，计算公式为：

$查准率P = \frac{{\left| {{A} \cap {B}} \right|}}{{\left| {B} \right|}} =\frac{返回文档中相关结果的数目}{返回结果的数目}\times100\%$ …（2）

使用这些度量方式潜在的一个假设是，该任务致力于检索尽可能多的相关文档，并使检索到的不相关文档数量达到最小。

F值是融合查全率和查准率的指标，是查全率和查准率的调和值。它定义为查全率和查准率的调和平均数，即：

${\rm{F}} = \frac{1}{{\frac{1}{2}(\frac{1}{R} + \frac{1}{P})}} = \frac{{2{RP}}}{{{R} + {P}}}$ …（3）

平均查准率均值和插值

平均化技术的目标是通过某个查询集来总结某个排序算法的排序性能。平均查准率均值（mean average precision; MAP），可以在每个查全率水平上提供单指标的结果。在众多评价指标中，MAP被证明具有非常好的区别性和稳定性。对于单个信息需求，返回结果中在每篇相关文档位置上的查准率的平均值称为平均查准率（average precision），然后对所有信息需求平均即可得到MAP。形式化地，假定信息需求q_j∈Q对应的相关文档集合，则有：

${\rm{MAP}}\left( {\rm{Q}} \right) = \frac{1}{{\left| Q \right|}}\mathop \sum \limits_{j = 1}^{\left[ Q \right]} \frac{1}{{{m_j}}}\mathop \sum \limits_{k = 1}^{{m_j}} Precision({R_{jk}})$ …（4）

如果某篇相关文档未返回，那么上式中其对应的查准率值都为0。对于单个信息需求来说，平均查准率是未插值的查准率—查全率曲线下面的面积的近似值，因此可以粗略地认为是某个查询集合对应的多条查准率—查全率曲线下面积的平均值。

标准查全率等级是0.0～1.0，增量为0.1。为了获得每个查询在这些查全率等级下的准确率，必须进行插值。即需要基于这些数据点定义一个函数，让其在每个查全率等级处都有值。信息检索评价中插值的计算方法为，在任何标准查全率等级R处，定义查准率P为：

$P\rm{(R)}=max\{\rm{P';R'}{\geqslant}R\wedge(R',P')\in{S}\}$ …（5）

式中S是观测点（R，P）的集合。在任意的查全率等级处，该插值定义查准率为在较高查全率等级处，查全率—查准率点中观测到的最大查准率。

需要在固定的较少数目（如10或者30篇文档）的结果文档中计算查准率。该查准率称为前k个结果的查准率（precision at rank k，可简写成p@k），对于排序位置p，可以选取许多可能的值，但由于用户比较关心排序靠前的输出结果，因此最常使用的是p@10和p@20的查准率度量值。该指标的优点是不需要计算相关文档集合的数目，缺点是它在通常所用的指标中是最不稳定的。

排序倒数和归一化折损累积增益

排序倒数评价方法主要是用户只需要返回一个单独的相关文档的情况。它定义为返回第一个相关文档位置的倒数。平均倒序倒数（MRR）是针对一组查询的排序倒数平均值。例如，对于一个查询而言，假设返回的前五个文档的情况分别为dn、dr、dn、dn、dn，其中dn是不相关的文档，而dr是相关文档，那么排序倒数值为1/2=0.5。归一化折损累积增益（NDCG）是针对非二值相关情况下的指标。同指标p@k一样，它基于前k个检索结果进行计算。设R（j,d）是评价人员给出的文档d对查询j的相关性得分，那么：

$NDCG\left( {Q,k} \right) = \frac{1}{{\left| Q \right|}}\mathop \sum \limits_{j = 1}^{\left| {\rm{Q}} \right|} {Z_{j,k}}\mathop \sum \limits_{m = 1}^k \frac{{{2^{R\left( {j,m} \right)}} - 1}}{{\log \left( {1 + m} \right)}}$ …（6）

式中 $Z_{j,k}$ 是归一化因子，用于保证对于查询j最完美系统的NDCG atk得分是1，m是返回文档的位置。如果某查询返回的文档数k'<k，那么上述公式中只需要计算到k'为止。

用户对检索效果评价

信息检索系统是供用户使用，为日常工作、科研和学习而服务的，因此用户评价也是检索效果评价的重要方面。用户对检索效果的评价带有一定的主观性，包括与特定用户及其相关性判断结果有直接关系的测评指标，如涵盖率、新颖率、相对查全率、查全努力等，这些评价指标相对客观，有度量价值。此外还有一些基于用户相关性判断的评测指标，如期望查找长度（ESL）、满意度、挫折度等。由于用户相关性判断的不确定性很难度量，这些指标在评价试验中使用得比较少，需要进一步观察、检验其合理性与价值。

涵盖率

假定对于某一特定的用户检索请求，系统中存在一个与其相关的文档集合R，若执行这个检索请求，在检索系统中会得到一个实际的命中结果集合A。通常情况下R和A是相交的。若用U来表示用户检索前已知与自己检索请求相关的文档集合，则U为R的子集合。在此基础上，令R_k＝A∩U（A和U的交集），代表已经检索出的、用户以前已知的相关文档集合；R_u=(A∩R)-R_k，表示已经检索出的、用户以前未知的相关文档集合。

涵盖率

涵盖率定义为在用户已知的相关文档集合中被检索出的相关文档所占比率，即：

$涵盖率C = \frac{{\left| {{R_k}} \right|}}{{\left| U \right|}}$ …（7）

这里，｜R_k｜和｜U｜分别表示集合R_k和U中的文档数量。

新颖率

定义为用户检索出的相关文档集合中以前未知的相关文档所占比率，即：

$新颖率= \frac{{\left| {{R_{u}}} \right|}}{{\left| {{R_u}} \right| + \left| {{R_k}} \right|}}$ …（8）

高的涵盖率意味着检索系统可以为用户发现大多数期望得到的相关文档，而高的新颖率则意味着检索系统在一次检索中可以为用户发现或者提供更多以前未知的新的相关文档。

相对查全率

定义为检索系统检出的相关文档数量与用户期望得到的相关文档数量的比率。当用户已经获取到其希望得到的相关文档数量后，检索过程终止，此时相对查全率的值为1。

查全努力

定义为用户期望得到的相关文档数量与为了得到这些相关文档而在检索结果中审查文档数量的比率。

意义和影响

检索效率是衡量文献工作质量高低的重要标准，在信息时代，检索效率对个人日常工作、学习有着至关重要的作用。对信息检索效果的评价，涉及内容多，且有不少的评价指标难以量化。信息检索效果评价指标体系的设计仍需进一步地深入研究，不断加以完善和提高，增强其实用性与可操作性。