游离值分为两种情况:①单个变量值过大或过小,与同一个变量其他观察值存在着明显的偏离。②单个变量值虽未出现与其他观察值有明显偏离,但不符合变量间的结构和相关性,明显扰乱这种相关关系。这将会导致研究者在做回归分析的时候,得出有较大偏差的结果,影响模型的拟合优度。
游离值的产生有许多原因,但主要可分为主、客观两方面。主观上讲,有可能是抽样调查设计时疏忽大意,以及有意的虚报谎报数据导致游离值的出现;客观上讲,某些样本由于特定原因在某些变量上的确表现突出,明显超出平均水平,也会影响数据的质量。
用合适的方法来检测这些游离值是非常重要的。许多学者为检测游离值作了积极有益的探究,许多针对特定情况下的检测方法也已被发现。针对单个变量且样本容量不大的数据,t检验、Dixon检验、Grubbs检验、Nair检验、偏度-峰度检验等方法都行之有效。对于多变量大样本的游离值的检测,至今为止无一种可广泛适用的方法。但也有一些方法可用来处理这些游离值,如杠杆值[注]检测方法、一般马氏距离[注]检测法等。
以一般马氏距离检验方法为例,计算每个样本的马氏距离公式为:
式中为每个样本的数据值,T为样本数据的均值向量,
为协方差矩阵。
因为每个样本距离都近似服从一个自由度为P的卡方分布,所以可以在某个置信度条件下算出,当
时,就可判断该样本为游离值。