游离值

首页 . 法学 . 社会学 . 社会学方法 . 数据分析

/outlier/

条目作者王军

王军

最后更新 2023-11-20

浏览 141次

最后更新 2023-11-20

浏览 141次

0 意见反馈条目引用

一个有关数据质量的概念，是在多元数据中与其他数据有较大差异的观察值。又称异常值。

英文名称: outlier

又称: 异常值

所属学科: 社会学

游离值分为两种情况：①单个变量值过大或过小，与同一个变量其他观察值存在着明显的偏离。②单个变量值虽未出现与其他观察值有明显偏离，但不符合变量间的结构和相关性，明显扰乱这种相关关系。这将会导致研究者在做回归分析的时候，得出有较大偏差的结果，影响模型的拟合优度。

游离值的产生有许多原因，但主要可分为主、客观两方面。主观上讲，有可能是抽样调查设计时疏忽大意，以及有意的虚报谎报数据导致游离值的出现；客观上讲，某些样本由于特定原因在某些变量上的确表现突出，明显超出平均水平，也会影响数据的质量。

用合适的方法来检测这些游离值是非常重要的。许多学者为检测游离值作了积极有益的探究，许多针对特定情况下的检测方法也已被发现。针对单个变量且样本容量不大的数据，t检验、Dixon检验、Grubbs检验、Nair检验、偏度-峰度检验等方法都行之有效。对于多变量大样本的游离值的检测，至今为止无一种可广泛适用的方法。但也有一些方法可用来处理这些游离值，如杠杆值^[注]检测方法、一般马氏距离^[注]检测法等。

以一般马氏距离检验方法为例，计算每个样本的马氏距离公式为：

$d(i)=\sqrt{(x_{i}-T)'S^{-1}(x_{i}-T)}$

式中 $x_{i}$ 为每个样本的数据值，T为样本数据的均值向量， $S^{-1}$ 为协方差矩阵。

因为每个样本距离都近似服从一个自由度为P的卡方分布，所以可以在某个置信度条件下算出 $\sqrt{x_{p,a}^{2}}$ ，当 $d(i)>\sqrt{x_{p,a}^{2}}$ 时，就可判断该样本为游离值。

扩展阅读

王斌会，陈一非．基于稳健马氏距离的多元异常值检测．统计与决策，2005（6）：4-6．

游离值

王军

扩展阅读

阅读历史

感谢您的反馈

游离值

王军

扩展阅读

精选发现

相关条目

阅读历史

感谢您的反馈