分层抽样

首页 . 理学 . 统计学 . 数理统计 . 【核心概念】 . 【核心概念】

/stratified sampling/

条目作者金勇进蒋妍

条目作者金勇进

金勇进

蒋妍

最后更新 2024-11-27

浏览 423次

最后更新 2024-11-27

浏览 423次

0 意见反馈条目引用

将总体单元按其属性特征分成若干类型或层，然后对每个类型或层进行独立随机抽样的概率抽样方法。又称类型抽样、分类抽样。

英文名称: stratified sampling

又称: 类型抽样、分类抽样

所属学科: 统计学

由英国统计学家A.L.鲍利于1926年提出。分层抽样是一种广泛应用于有限总体抽样的抽样技术。分层抽样首先把总体划分为 $L$ 个互不重叠且无遗漏的层，再在每一层进行独立抽样，将各层样本汇总从而得到分层样本，总体参数则根据各层样本统计量的汇总做出估计。

分层抽样的分层原则是使层内方差尽可能小且层间方差尽可能大，这是由于分层抽样估计量方差仅取决于各层层内方差，与层间方差无关。依据方差分析原理，总体方差可以分解为层内方差和层间方差，是层内方差与层间方差之和。通过科学分层，减小层内方差，加大层间方差，从而减少估计量方差，提高抽样精度。分层抽样的各层内的抽样是独立抽样，层间估计量汇总方式简单易行，仅是对均值估计的加权平均或是对总值估计的简单相加。同时，由于分层样本来自各层，可以使得样本结构与总体结构趋于一致，使样本成为总体的一个缩影，由此提高估计的精度。

如果在每层中的抽样都是独立地按照简单随机抽样进行，称这样的分层抽样为分层随机抽样，所得的样本称分层随机样本。

以总体均值为例，对于分层样本，对总体均值 $\overline Y$ 的估计 $\hat {\overline Y}_{\rm st}$ 是通过对各层的 ${\overline Y}_{h}$ 的估计 $\hat {\overline Y}_{h}$ ，按层权 $W_h$ 加权平均得到的，即：

$\hat {\overline Y}_{\rm st}=\sum^L_{h=1}W_h\hat {\overline Y}_h=\frac{1}{N}\sum^L_{h=1}N_h\hat {\overline Y}_h$

式中 $h$ 为层的标识，其中 $h=1,2,\cdots,L$ ； $L$ 为层的数量； $N$ 为总体单元数； $N_h$ 为第 $h$ 层的样本单元数；层权 $W_h=\frac{N_{h}}{N}$ 。

若每层都按照简单随机抽样抽取，则 $\hat {\overline Y}_{\rm st}$ 是 ${\overline Y}$ 的无偏估计，且方差为：

$V(\hat{\overline{Y}}_{\rm st})=\sum_{h=1}^{L}W_{h}^{2}V(\hat{\overline{Y}}_{h})=\sum_{h=1}^{L}W_{h}^{2}\frac{1-f_{h}}{n_{h}}S_{h}^{2}$

式中 $n_{h}$ 为第 $h$ 层的抽取的样本单元数； $f_h=\frac{n_h}{N_h}$ 为第 $h$ 层的抽样比； $S^{2}_{h}$ 是第 $h$ 层内目标变量 $Y$ 的总体方差。

$V(\hat{\overline{Y}}_{\rm st})$ 的一个无偏估计为：

$\nu(\hat{\overline{Y}}_{\rm st})=\sum_{h=1}^{L}W_{h}^{2}\nu(\hat{\overline{Y}}_{h})=\sum_{h=1}^{L}W_{h}^{2}\frac{1-f_{h}}{n_{h}}s_{h}^{2}$

给定总样本量 $n$ 的条件下，使用不同的样本量分配方法，会对分层抽样的估计量误差产生影响。样本量在各层的分配方法主要包括比例分配、奈曼分配和最优分配。

①比例分配。要求每层样本量与层的总体规模成比例，是按各层的层权进行分配的一种方法，即 $\frac{n_h}n=\frac{N_h}N$ 。采用分层随机抽样，当按比例分配样本量 ${\overline Y}$ 时，关于总体均值的估计可表示为：

$\bar{y}_{\rm prop}=\sum_{h=1}^{L}\frac{n_{h}}{n}\overline{y}_{h}=\overline{y}$

$\bar{y}_{\rm prop}$ 的方差为：

$V(\overline{y}_{\rm prop})=\sum_{h=1}^{L}W_{h}^{2}V(\overline{y}_{h})=\frac{1-f}{n}\sum_{h=1}^{L}W_{h}S_{h}^{2}$

式中 $f=\frac{n}{N}$ 为抽样比。在按比例分配的分层随机样本中，各层抽样比 $f_h=\frac{n_k}{N_k}=\frac nN=f$ ，所有总体单元的入样概率都相同，因此是自加权样本。

②奈曼分配。最早在1923年由苏联学者A.A.楚波罗给出证明，但直到1934年统计学家J.奈曼重新证明才为人们关注，故这种形式的分配常被称为奈曼分配。奈曼分配的核心思想是各层样本量与该层规模 $W_{h}$ 或 $N_{h}$ 成正比，并与该层目标变量层内标准差 $S_{h}$ 成反比，将层规模与各层标准差结合起来考虑，从而实现估计量方差极小化。具体公式如下：

$n_{h}=n\frac{W_{h}S_{h}}{\sum_\limits{h=1}^{L}W_{h}S_{h}}=n\frac{N_{h}S_{h}}{\sum_\limits{h=1}^{L}N_{h}S_{h}}$

在分层随机抽样中，当样本量固定时，若采用奈曼分配，则此时总体均值估计量 $\bar {y}_{\rm st}$ 的方差达到最小值，有：

$V_{\mathrm{min}}(\overline{y}_{\rm st})=\frac{1}{n}(\sum_{h=1}^{L}W_{h}S_{h})^{2}-\frac{1}{N}\sum_{h=1}^{L}W_{h}S_{h}^{2}$

③最优分配。在奈曼分配基础上，考虑层间单元调查费用不相等的情况。在分层随机抽样中，最优分配是给定费用使估计量方差最小，或给定估计量方差使总费用最小的样本量分配方法。若费用函数是简单线性的，即总费用 $C_t$ 为：

$C_t=c_0+\sum_{h=1}^Lc_hn_h$

式中 $c_{0}$ 为与样本量无关的固定费用； $c_{h}$ 为在第 $h$ 层内调查一个单元的平均费用； $n_{h}$ 为第 $h$ 层抽取的样本单元数。则此时的最优分配是：

$\frac{n_h}n=\frac{\frac{W_hS_h}{\sqrt{c_h}}}{\sum_\limits{h=1}^L\frac{W_hS_h}{\sqrt{c_h}}}=\frac{\frac{N_hS_h}{\sqrt{c_h}}}{\sum_\limits{h=1}^L\frac{N_hS_h}{\sqrt{c_h}}}$

最优分配表达式中的 $n$ 需由所研究的问题确定。若研究目的是在给定方差情况下使总费用最小，则 $\begin{aligned}n&=\frac{(\sum_\limits{h=1}^LW_hS_h\sqrt{c_h})(\sum_\limits{h=1}^LW_hS_h/\sqrt{c_h})}{V+\sum_\limits{h=1}^L\frac{W_hS_h^2}N}\end{aligned}$ ；若研究目的是在给定总费用情况下使方差最小，则 $\begin{aligned}n&=\frac{(C_T-c_0)(\sum_\limits{h=1}^LW_hS_h/\sqrt{c_h})}{\sum_\limits{h=1}^LW_hS_h\sqrt{c_h}}\end{aligned}$ 。

分层抽样

金勇进

蒋妍

阅读历史

感谢您的反馈

分层抽样

金勇进

蒋妍

精选发现

相关条目

阅读历史

感谢您的反馈