诊断试验的评价一般都建立在与金标准比较的基础上,金标准通常指灵敏度和特异度都达到100%的诊断方法。然而,实际工作中真正的金标准往往难以获得,因为没有一种诊断方法能保证准确度达到100%。因而,许多诊断试验实际上采用的是无金标准或不完善金标准的评价方法。采用非金标准或者不完善金标准作为参照检测方法,则对诊断试验准确度的估计会有偏倚。如果待评价的试验方法与非金标准的参照检测方法之间互相独立,则试验方法的灵敏度和特异度会被低估,如果待评价的试验方法与非金标准的参照检测方法不独立,有相关性时,则试验方法的灵敏度和特异度会被高估。目前常用贝叶斯方法和基于频率最大似然法评价非金标准的诊断试验的准确度,以校正灵敏度和特异度估计时的偏倚。
在没有真正的金标准的情况下,也可以评估待评价的试验方法与非金标准的参照检测方法之间的一致性,计算符合率、阳性一致性、阴性一致性、Kappa值等一致性评价指标。但是因为待评价的试验方法与非金标准的参照检测方法都可能出现错误,参照方法也不是100%的准确,所以一致性评价结果并不能代表准确度评价结果。