域可以按管理层次或地理区域进行划分,如各个地区、省、市、县、乡等行政机构;也可以按照调查对象的类别进行划分,如产值中的类值,或按照年龄或性别划分的人群组。抽样调查中不仅要对总体参数进行估计,在许多情况下也需要对域的参数进行估计。域估计方法分为直接估计和间接估计。
直接估计方法仍占主流地位,被视为标准的估计方法。直接估计仅采用当期调查落在该域的样本数据进行估计,通过加权来实现一个无偏的或近似无偏的一致估计量。在没有辅助变量的情况下,可以采用经典的霍维茨-汤普森估计量(H-T估计量)对第个域的总值进行估计:
式中;
;
为第
个单元被抽中的概率;
为包含第
个单元的所有样本的集合;
为第
个域的样本。H-T估计量具有无偏性,且在
的样本量较大时具有一致性。
直接估计在许多情况下不能从根本上解决问题,主要表现在:调查费用的硬约束,无法增大满足域估计所需要的样本量;落在某些域的样本量过小,导致估计量方差增大而无法满足估计的必要精度要求;有些域可能根本没有样本落入,从而无法进行估计。此时需要采用间接估计。
间接估计不仅使用当期调查数据,还利用以往时期或其他域的数据来改进待研究域的参数估计。间接估计的实质是通过模型推断和条件推断相结合的方式,把已观测数据作为条件,并根据已观测数据和未观测到的数据之间的关系建立模型,通过估计模型的未知参数来实现对域参数的估计。
间接估计一般分为域间接估计(横截面)、时间间接估计(时间序列)和域与时间相结合的间接估计(横截面和时间序列相结合)。与直接估计量相比,间接估计量具有下列特点:①模型估计一般是针对某一特殊目标参数而设计,如果模型设置合理,则估计精度比较高,检验也比较全面。②使用模型分析调查数据时,容易识别和测量变量间存在的因果关系。③间接估计方法不仅使用本域的数据,也使用了其他域和以往时期的数据信息,与各域目标参数的真实分布相比,估计值具有某种“集中”的趋势,其方差一般小于直接估计值的方差。④若预测模型的假设条件不成立,间接估计量往往有偏,且偏差不会随着样本量的增大而减小。⑤对于同一个目标参数,不同区域间估计值的偏差可能会相差很大。⑥间接估计量是不稳健的,若选择的模型不恰当或缺乏合适的辅助变量,模型估计会失败,估计的效果很差。