单纯随机抽样

首页 . 农学 . 林业 . 森林经理学 . ﹝森林监测与评价﹞ . 抽样调查

/pure random sampling/

条目作者汤孟平

汤孟平

最后更新 2023-07-06

浏览 273次

最后更新 2023-07-06

浏览 273次

0 意见反馈条目引用

从含有 $N$ 个单元的总体中，随机等概地提取 $n$ 个单元组成样本，用以估计总体的方法。又称简单随机抽样。

英文名称: pure random sampling

又称: 简单随机抽样

所属学科: 林业

1906年，英国统计学家A.L.鲍利（Arthur Lyon Bowley，1869～1957）提出把概率抽样应用到统计调查，强调保证被考察的对象（每个人或事）都有同等的机会被抽中，由此诞生了单纯随机抽样。单纯随机抽样强调全部可能的样本被抽中的概率都相等。

1906年鲍利用实际数字论证了简单随机抽样情况下，统计量遵从中心极限定理，在大样本时近似服从正态分布。他指出中心极限定理可以作为抽样的概率理论基础，可以用于估计总体参数。他强调把概率抽样应用到统计调查的必要性，用概率抽样方法能得到满意的结果，并且通常只要很小的样本就够了，唯一的难点就是保证被考察的对象（每个人或事）都有同等的机会被抽中。1912年，他对英国雷亭地区贫困状况的研究就采用了随机抽样。1925年，在罗马举行的第16届国际统计会会议上，抽样方法应用研究委员会发布了鲍利的《抽样精确度的测定》报告，提出了随机抽样要按照概率原理给每个单位都有被抽中的机会的观点。这标志着单纯随机抽样诞生了。

基本内容

单纯随机抽样通常用样本平均数作为总体均值的估计。

样本单元数

样本单元数为：

$n = \frac{n_0}{1+\frac{n_0}{N}}$

式中 $N$ 为总体单元数； $n_0$ 的计算可以用以下3种形式之一：

$n_0=\lgroup\frac{u_αS}{\Delta(\bar{y})}\rgroup^2$

$n_0=\lgroup\frac{u_αS}{r(\bar{y})}\rgroup^2$

$n_0=\lgroup\frac{u_αC}{r}\rgroup^2$

式中 $u_α$ 为可靠性指标； $S$ 为总体标准差； $Δ(\bar{y})$ 为绝对误差； $r$ 为相对误差； $C$ 为变动系数。

通常总体标准差 $S$ 及变动系数 $C$ 是未知的，一般可以根据历史经验数据或抽样前的预备调查来确定。

总体平均数的估计值

在抽样调查中，用样本平均数作为总体平均数的估计值。总体平均数估计值为：

$\hat{\bar{Y}}=\bar{y}=\frac{1}{n}{\sum\limits_{i=1}^n {{y_i}}}$

式中 $y_i$ 为第 $i$ 个样本单元的观测值； $\bar{y}$ 为样本均值； $n$ 为样本单元数。

总体总量的估计值

总体总量的估计值为总体单元数与样本平均数的乘积。总体总量估计值为：

$\hat{T}=N\bar{y}=\frac{N}{n}{\sum\limits_{i=1}^n {{y_i}}}$

总体平均数估计值的方差

总体方差和标准差的估计值分别为：

$S^2=\frac{1}{n-1}{\sum\limits_{i=1}^n(y_i-\bar{y}})^2$

$S=\sqrt{\frac{1}{n-1}{\sum\limits_{i=1}^n(y_i-\bar{y}})^2}$

式中 $S^2$ 、 $S$ 分别为样本方差和样本标准差。

在重复抽样条件下，总体平均数估计值的方差和标准差分别为：

$S_\bar{y}^2=\frac{S^2}{n}$

$S_{\bar{y}}=\frac{S}{\sqrt{n}}$

在不重复抽样条件下，总体平均数估计值的方差和标准差分别为：

$S_\bar{y}^2=\frac{S^2}{n}\lgroup{1-\frac{n}{N}}\rgroup$

$S_\bar{y}=\sqrt{\frac{S^2}{n}\lgroup{1-\frac{n}{N}}\rgroup}$

抽样误差限估计

绝对误差为：

$\Delta\bar{y}=u_\alpha S_\bar{y}$

式中 $u_α$ 为可靠性指标。

相对误差为：

$E=\frac{\Delta_\bar{y}}{\bar{y}}\times100\%$

估计精度

估计精度为：

$P=1-E$

意义和影响

单纯随机抽样是最基本的抽样方法，在抽样理论中占有重要地位，是其他抽样方法的基础，其理论也最为成熟。但单纯随机抽样也有很大局限性，因为它要求每个对象具有相同被抽中的概率，要求编制包含每个对象的完全抽样框，这对大型总体而言是根本做不到的。

单纯随机抽样的优点是不需要总体的先验知识，可以避免分类误差，对数据的解释相对较容易。但由于单纯随机抽样不需要也没有用到总体单元的任何信息，因而它的效率比使用总体单元辅助信息的那些抽样方法如分层抽样等要低一些。

单纯随机抽样在许多方面有待改进和发展。研究表明，利用辅助信息可以提高单纯随机抽样总体参数的估计精度，例如身高与性别相关、牛奶产量与母牛种类相关、小麦产量与小麦品种相关等。此外，需要解决抽样调查中因数据缺失而降低参数估计效率的问题。

在大规模调查中，很少直接采用单纯随机抽样，通常将单纯随机抽样方法与其他抽样方法结合起来使用，如分层抽样是在分层基础上在层内进行单纯随机抽样，多阶抽样是在抽取样本的各个阶段采用单纯随机抽样。

扩展阅读

冯士雍，倪加勋，邹国华．抽样调查理论与方法．北京：中国统计出版社，2015．
关玉秀．测树学．北京：中国林业出版社，1987．
李金昌．应用抽样技术．北京：科学出版社，2015．
BOUZA C N, AI-OMARI A I．Estimating the population mean in the case of missing data using simple random sampling．Statistics，2012，46(2)：279-290．
GROVER L K, KAUR P．An improved exponential estimator of finite population mean in simple random sampling using an auxiliary attribute．Applied mathematics and computation，2011，218：3093-3099．