首页 . 法学 . 社会学 . 社会学方法 . 数据分析

游离值

/outlier/
条目作者王军

王军

最后更新 2023-11-20
浏览 141
最后更新 2023-11-20
浏览 141
0 意见反馈 条目引用

一个有关数据质量的概念,是在多元数据中与其他数据有较大差异的观察值。又称异常值。

英文名称
outlier
又称
异常值
所属学科
社会学

游离值分为两种情况:①单个变量值过大或过小,与同一个变量其他观察值存在着明显的偏离。②单个变量值虽未出现与其他观察值有明显偏离,但不符合变量间的结构和相关性,明显扰乱这种相关关系。这将会导致研究者在做回归分析的时候,得出有较大偏差的结果,影响模型的拟合优度。

游离值的产生有许多原因,但主要可分为主、客观两方面。主观上讲,有可能是抽样调查设计时疏忽大意,以及有意的虚报谎报数据导致游离值的出现;客观上讲,某些样本由于特定原因在某些变量上的确表现突出,明显超出平均水平,也会影响数据的质量。

用合适的方法来检测这些游离值是非常重要的。许多学者为检测游离值作了积极有益的探究,许多针对特定情况下的检测方法也已被发现。针对单个变量且样本容量不大的数据,t检验、Dixon检验、Grubbs检验、Nair检验、偏度-峰度检验等方法都行之有效。对于多变量大样本的游离值的检测,至今为止无一种可广泛适用的方法。但也有一些方法可用来处理这些游离值,如杠杆值[注]检测方法、一般马氏距离[注]检测法等。

以一般马氏距离检验方法为例,计算每个样本的马氏距离公式为:

式中为每个样本的数据值,T为样本数据的均值向量,为协方差矩阵。

因为每个样本距离都近似服从一个自由度为P的卡方分布,所以可以在某个置信度条件下算出时,就可判断该样本为游离值。

  • 王斌会,陈一非.基于稳健马氏距离的多元异常值检测.统计与决策,2005(6):4-6.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!