通常数据的缺失会导致估计产生较大的偏差、效率降低以及数据分析的困难增加。所以利用插补法可以避免或减少数据缺失的不良后果。插补法主要分为两类,一类方法是直接删除,另一类方法是用估计值代替缺失的部分。
在数据缺失完全随机的机制下,删除法方便、有效。删除法分为两种,一种方法是将某条有数据缺失的记录完全删除,这不会增加估计的偏差,但会减少有效样本量。另一种方法是,在某次分析中,只删除缺失与该分析有关变量值的那一条记录。
用估计值代替法主要有以下四种:从同一数据集的相似记录中随机选取某一记录的值作为估计值;从另一数据集中随机选取某一记录的值作为估计值;采用剩余样本的均值或众数作为估计值;用剩余样本进行回归分析,利用回归模型估计缺失数据记录中的缺失值。
为了解决以上插补法导致的噪声增加问题,鲁宾(Rubin)(1987)提出了多元化插补法,即分别对采取不同插补法得到的完整数据进行分析、建模,然后再将这几个分析结果整合到一起,计算相应参数的估计均值、方差等。