由英国统计学家A.L.鲍利于1926年提出。分层抽样是一种广泛应用于有限总体抽样的抽样技术。分层抽样首先把总体划分为个互不重叠且无遗漏的层,再在每一层进行独立抽样,将各层样本汇总从而得到分层样本,总体参数则根据各层样本统计量的汇总做出估计。
分层抽样的分层原则是使层内方差尽可能小且层间方差尽可能大,这是由于分层抽样估计量方差仅取决于各层层内方差,与层间方差无关。依据方差分析原理,总体方差可以分解为层内方差和层间方差,是层内方差与层间方差之和。通过科学分层,减小层内方差,加大层间方差,从而减少估计量方差,提高抽样精度。分层抽样的各层内的抽样是独立抽样,层间估计量汇总方式简单易行,仅是对均值估计的加权平均或是对总值估计的简单相加。同时,由于分层样本来自各层,可以使得样本结构与总体结构趋于一致,使样本成为总体的一个缩影,由此提高估计的精度。
如果在每层中的抽样都是独立地按照简单随机抽样进行,称这样的分层抽样为分层随机抽样,所得的样本称分层随机样本。
以总体均值为例,对于分层样本,对总体均值的估计
是通过对各层的
的估计
,按层权
加权平均得到的,即:
式中为层的标识,其中
;
为层的数量;
为总体单元数;
为第
层的样本单元数;层权
。
若每层都按照简单随机抽样抽取,则是
的无偏估计,且方差为:
式中为第
层的抽取的样本单元数;
为第
层的抽样比;
是第
层内目标变量
的总体方差。
的一个无偏估计为:
给定总样本量的条件下,使用不同的样本量分配方法,会对分层抽样的估计量误差产生影响。样本量在各层的分配方法主要包括比例分配、奈曼分配和最优分配。
①比例分配。要求每层样本量与层的总体规模成比例,是按各层的层权进行分配的一种方法,即。采用分层随机抽样,当按比例分配样本量
时,关于总体均值的估计可表示为:
的方差为:
式中为抽样比。在按比例分配的分层随机样本中,各层抽样比
,所有总体单元的入样概率都相同,因此是自加权样本。
②奈曼分配。最早在1923年由苏联学者A.A.楚波罗给出证明,但直到1934年统计学家J.奈曼重新证明才为人们关注,故这种形式的分配常被称为奈曼分配。奈曼分配的核心思想是各层样本量与该层规模或
成正比,并与该层目标变量层内标准差
成反比,将层规模与各层标准差结合起来考虑,从而实现估计量方差极小化。具体公式如下:
在分层随机抽样中,当样本量固定时,若采用奈曼分配,则此时总体均值估计量的方差达到最小值,有:
③最优分配。在奈曼分配基础上,考虑层间单元调查费用不相等的情况。在分层随机抽样中,最优分配是给定费用使估计量方差最小,或给定估计量方差使总费用最小的样本量分配方法。若费用函数是简单线性的,即总费用为:
式中为与样本量无关的固定费用;
为在第
层内调查一个单元的平均费用;
为第
层抽取的样本单元数。则此时的最优分配是:
最优分配表达式中的需由所研究的问题确定。若研究目的是在给定方差情况下使总费用最小,则
;若研究目的是在给定总费用情况下使方差最小,则
。