首页 . 理学 . 统计学 . 数理统计 . 抽样调查

小域估计

/small area estimation/
条目作者金勇进蒋妍
条目作者金勇进

金勇进

蒋妍

蒋妍

最后更新 2024-02-21
浏览 250
最后更新 2024-02-21
浏览 250
0 意见反馈 条目引用

利用落在小域的样本量无法保证对于小域中子总体的估计和推断的精度和可靠度时常用的估计方法。

英文名称
small area estimation
所属学科
统计学

印度统计学家C.R.拉奥[注]于2003年将域定义为“既可以包括地理区域,又包括按某种属性划分出的子总体。如果一个域的样本量大到能够以传统的直接估计方法来给出足够精度,就称之为大域;若无法用直接估计方法给出足够精度,则称之为小域”。关于域与小域估计问题的初步研究分别出现于11世纪的英国和17世纪的加拿大,主要关于人口统计学,这些早期的域和小域估计实质上是建立在人口普查或是完整行政记录之上的一种对域或小域的“统计”。

在抽样设计中,样本量的设计是基于总体中某个最重要的目标变量的精度要求进行设计,即样本量可以满足估计总体目标变量的精度要求。然而对于子总体(小域)的估计,所得样本单元落在各子总体的分布不均匀,有些子总体中所包含的样本单元相对较多,而有些子总体中所包含的样本单元则相对较少,甚至部分子总体没有样本单元,因此在一定的精度要求下,单纯用估计总体的方法去估计子总体,其样本量是不够的。用传统的直接调查估计法则会造成估计标准差过大,无法得到有效的估计量,由此引起了小域估计问题的研究。对于小域估计问题的研究主要是基于传统抽样方法,对抽样设计和抽样估计方法进行相应改进。

对于涉及小域估计的大型抽样调查,其抽样设计的改进方法主要包括以下8种:①在抽样设计时应尽量减少整群抽样。通过选择合适的抽样框来尽可能替换整群抽样,以减少样本单元的群聚性。②细分层。当小域估计是基于分层抽样的调查时,利用细分层的方法得到在小域层次上的较好样本量分布。③折中分配样本。在保持总体目标变量估计精度的条件下,尽量提高小域估计精度,适当降低总体样本量,增加小域中样本量。④整合调查数据。将含有相同辅助变量的不同调查数据进行整合以对目标域进行估计。⑤利用复合抽样框。通过两个相互重叠并且类型不同的两个样本框进行抽样,增加有效样本量从而提高估计精度。⑥连续抽样。由于许多调查都是周期性的,通过合并两次或多次的调查样本以增加样本量,如“滚动样本”方法。⑦事后分层技术。在事后对样本单元按其特征划归到对应的小域中,构造相应估计量对小域目标变量进行有效估计。⑧样本追加策略。在以估计总体参数为目的而抽取样本的基础上,通过追加样本来满足小域子总体参数的估计需求。

在既定的抽样设计和调查信息下,为得到更精确的估计,需要选择相应的小域估计方法,主要分为基于设计的估计和基于模型的估计。①基于设计的估计法。依赖现有的样本数据进行域估计的方法,该方法的核心是如何更有效地增加“虚拟”单元样本,从而将域样本量“扩充”到足够满足估计精度的要求。在抽样调查中,常遇到的问题是估计小域的总值或者均值,传统的基于设计的估计法是直接估计法。典型的直接估计法是建立在随机化推断理论基础上,该方法利用当期抽样落在该小域的样本数据,通过随机化、重复化、加权来获得目标变量的无偏估计或近似无偏的一致估计。在此之后,衍生出了基于有限总体的校准估计法和基于超总体的广义回归估计法,这两种估计法利用辅助信息,建立了估计量与模型之间的联系,均属于模型辅助的估计法,但此时模型在估计量的构建过程中只作为一个辅助工具出现,不起决定作用。当落在小域中的样本量足够多时,基于设计的估计法较有效;当落在小域中的样本量很少甚至为零时,这类方法就会造成较大的均方误差,从而影响估计的有效性。②基于模型的估计法。在估计过程中不仅用到了目标小域本身的抽样调查所得的信息,还需借助其他相关域的信息以及目标小域往期的历史信息进行估计。当落在小域中的样本量非常小时,基于设计的估计法会产生非常大的均方误差,基于模型的估计法可以通过一些方法来引进其他域的信息,间接提高目标小域的有效样本量,以达到提高目标变量估计精度的目的。传统的基于模型的估计法是基于隐式模型的,主要包括合成估计方法和组合估计方法。合成估计方法是指当总体(大域)和目标小域具备相同的特征时,可以用总体(大域)的无偏样本估计量协助产生小域估计量的估计方法。合成估计方法在有模型的约束下稳健性较差,但在域样本量不足时能够借助其他域的信息来提高估计的精度,且在一定的假定条件下估计量方差较小。而基于设计的直接估计方法没有模型的约束,相对比较稳定,是一致无偏估计量,但在域样本量很小时估计会产生很大的方差。组合估计是指通过综合合成估计方法和直接估计方法,平衡两者的优缺点的估计方法。现行的基于模型的估计方法主要是基于显式模型的,针对目标变量的总体分布搭建目标变量与辅助变量之间的统计模型,从而进行推断的方法。该方法与隐式模型的主要区别在于显示模型具有规范明显的模型形式,从而明确辅助信息参与到估计过程的具体方式。根据模型可获得的辅助信息的层次不同,显式模型可分为小域层次模型和单元层次模型。①小域层次模型一般用于辅助变量的单元级信息不可得时,其只利用辅助变量在小域层次的汇总数据进行建模,将各小域目标变量的均值或总值与各小域的辅助变量连接起来。②单元层次模型则适用于小域内每个单元的辅助信息可得,单元层次模型可利用每个单元的辅助信息,通过将域目标变量与域内单元的辅助信息一一对应从而建立连接,使得估计效果更好。关于小域层次模型和单元层次模型的估计方法,主要有最优线性无偏估计法和经验贝叶斯估计法。

在小域估计中,虽然基于抽样设计的估计方法和基于模型的估计方法都会用到模型和辅助变量,但两者在模型基础、适用范围以及估计量的稳健性和解释度等方面存在差异。通常当样本量足够且抽样设计较为简单时,建议使用基于抽样设计的小域估计方法。而当样本量无法满足估计需求或者抽样设计非常复杂时,建议使用基于模型的小域估计方法。

  • RAO J N K.Small Area Estimation.Hoboken:Wiley,2003.
  • 李莉莉,冯士雍,秦怀振.不放回样本追加策略下域的估计.统计研究,2007,24(6):80-85.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!