首页 . 理学 . 统计学 . 数理统计 . 【核心概念】 . 【核心概念】

分层抽样

/stratified sampling/
条目作者金勇进蒋妍
条目作者金勇进

金勇进

蒋妍

蒋妍

最后更新 2024-11-27
浏览 423
最后更新 2024-11-27
浏览 423
0 意见反馈 条目引用

将总体单元按其属性特征分成若干类型或层,然后对每个类型或层进行独立随机抽样的概率抽样方法。又称类型抽样、分类抽样。

英文名称
stratified sampling
又称
类型抽样、分类抽样
所属学科
统计学

由英国统计学家A.L.鲍利于1926年提出。分层抽样是一种广泛应用于有限总体抽样的抽样技术。分层抽样首先把总体划分为个互不重叠且无遗漏的层,再在每一层进行独立抽样,将各层样本汇总从而得到分层样本,总体参数则根据各层样本统计量的汇总做出估计。

分层抽样的分层原则是使层内方差尽可能小且层间方差尽可能大,这是由于分层抽样估计量方差仅取决于各层层内方差,与层间方差无关。依据方差分析原理,总体方差可以分解为层内方差和层间方差,是层内方差与层间方差之和。通过科学分层,减小层内方差,加大层间方差,从而减少估计量方差,提高抽样精度。分层抽样的各层内的抽样是独立抽样,层间估计量汇总方式简单易行,仅是对均值估计的加权平均或是对总值估计的简单相加。同时,由于分层样本来自各层,可以使得样本结构与总体结构趋于一致,使样本成为总体的一个缩影,由此提高估计的精度。

如果在每层中的抽样都是独立地按照简单随机抽样进行,称这样的分层抽样为分层随机抽样,所得的样本称分层随机样本。

以总体均值为例,对于分层样本,对总体均值的估计是通过对各层的的估计,按层权加权平均得到的,即:

式中为层的标识,其中为层的数量;为总体单元数;为第层的样本单元数;层权

若每层都按照简单随机抽样抽取,则的无偏估计,且方差为:


式中为第层的抽取的样本单元数;为第层的抽样比;是第层内目标变量的总体方差。

的一个无偏估计为:


给定总样本量的条件下,使用不同的样本量分配方法,会对分层抽样的估计量误差产生影响。样本量在各层的分配方法主要包括比例分配、奈曼分配和最优分配。

①比例分配。要求每层样本量与层的总体规模成比例,是按各层的层权进行分配的一种方法,即。采用分层随机抽样,当按比例分配样本量时,关于总体均值的估计可表示为:


的方差为:


式中为抽样比。在按比例分配的分层随机样本中,各层抽样比,所有总体单元的入样概率都相同,因此是自加权样本。

②奈曼分配。最早在1923年由苏联学者A.A.楚波罗给出证明,但直到1934年统计学家J.奈曼重新证明才为人们关注,故这种形式的分配常被称为奈曼分配。奈曼分配的核心思想是各层样本量与该层规模成正比,并与该层目标变量层内标准差成反比,将层规模与各层标准差结合起来考虑,从而实现估计量方差极小化。具体公式如下:

    

在分层随机抽样中,当样本量固定时,若采用奈曼分配,则此时总体均值估计量的方差达到最小值,有:


③最优分配。在奈曼分配基础上,考虑层间单元调查费用不相等的情况。在分层随机抽样中,最优分配是给定费用使估计量方差最小,或给定估计量方差使总费用最小的样本量分配方法。若费用函数是简单线性的,即总费用为:


式中为与样本量无关的固定费用;为在第层内调查一个单元的平均费用;为第层抽取的样本单元数。则此时的最优分配是:

  

最优分配表达式中的需由所研究的问题确定。若研究目的是在给定方差情况下使总费用最小,则;若研究目的是在给定总费用情况下使方差最小,则

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!