首页 . 理学 . 数学 . 数理统计学 . 数据分析

插补法

/imputation/
条目作者柏杨

柏杨

最后更新 2024-12-03
浏览 993
最后更新 2024-12-03
浏览 993
0 意见反馈 条目引用

对缺失数据的填补方法。如果是对数据集中某一条记录进行填补,则称为单元插补;如果是对某一记录中的某个变量进行填补,则称为单项插补。

英文名称
imputation
所属学科
数学

通常数据的缺失会导致估计产生较大的偏差、效率降低以及数据分析的困难增加。所以利用插补法可以避免或减少数据缺失的不良后果。插补法主要分为两类,一类方法是直接删除,另一类方法是用估计值代替缺失的部分。

在数据缺失完全随机的机制下,删除法方便、有效。删除法分为两种,一种方法是将某条有数据缺失的记录完全删除,这不会增加估计的偏差,但会减少有效样本量。另一种方法是,在某次分析中,只删除缺失与该分析有关变量值的那一条记录。

用估计值代替法主要有以下四种:从同一数据集的相似记录中随机选取某一记录的值作为估计值;从另一数据集中随机选取某一记录的值作为估计值;采用剩余样本的均值或众数作为估计值;用剩余样本进行回归分析,利用回归模型估计缺失数据记录中的缺失值。

为了解决以上插补法导致的噪声增加问题,鲁宾(Rubin)(1987)提出了多元化插补法,即分别对采取不同插补法得到的完整数据进行分析、建模,然后再将这几个分析结果整合到一起,计算相应参数的估计均值、方差等。

  • RUBIN D B.Multiple imputation for nonresponse in surveys.Journal of Marketing Research,1987,137(1):180.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!