在实际数据获取过程中,常常存在由于遗漏、忽视、成本过高或无法获得等原因导致数据缺失的现象。数据插补是常见解决数据缺失问题的方法,经过数据插补后可以给数据分析者创建一个“完整”的数据集,不同的分析人员采用相同的数据插补方法,会得到相同(或相近)的插补值,从而保证分析结果的一致性。数据插补是一种方便的、常见的解决数据缺失问题的方法。它可以给数据分析者创建一个“完整”的数据集,插补数据不是真实数据,得到的分析结果和真实情况会存在一定的偏差。
根据插补值是否包括随机项,数据插补可分为随机插补和确定性插补。随机插补每次得到的插补值可能不同,确定性插补每次会得到相同的插补值。根据确定性插补值是否使用辅助变量,确定性插补可分为使用辅助变量的插补法和不使用辅助变量的插补法。进一步,使用辅助变量的插补法根据信息来源又可分为热卡插补和冷卡插补。热卡插补的辅助信息来自当前调查,冷卡插补的辅助信息来自以前的同类调查或其他已有的关于缺失数据单元的资料。
根据每个缺失值的插补值个数不同,数据插补可分为单一插补和多重插补。单一插补指对于每个缺失值,从它的预测分布中选择一个值进行替代,进而得到完全数据集。多重插补则为每个缺失值都插补了个可能的估计值,这些估计值反映了缺失数据的不确定性,从而形成多个完全数据集,对每个数据集,采用同样的方法将得到多个分析结果,综合插补数据集的分析结果,进行最终的统计推断,多重插补常用于估计量的方差估计。
数据插补常用的还包括均值插补、比率插补、最近邻插补、回归插补等。其中均值插补是利用样本数据平均值或众数作为其替代值对数据进行插补。
例如设单变量随机样本,
为第
个单元的变量值。
,当
缺失时,
,否则
。
为响应单元个数,即指示变量
的个数。对所有的缺失值,可用所有响应单元观测值的均值插补,插补值为
。插补后数据的样本均值为响应单元观测值均值,插补后数据的样本方差是
,
为响应单元样本方差。在完全随机缺失或随机缺失机制下,
是总体方差的相合估计,因此插补会造成估计量方差低估。对于辅助变量
,若随机样本
第
个单元变量值
缺失,但辅助变量值
存在,则
的比率插补值为
,
为反映随机样本
与辅助变量
之间关系的比率,其估计值为:
,这种插补方法被称为比率插补。