每个元素被完全随机地选取,这样在采样过程的任何步骤中每个元素具有相同的被选中概率,由个被选中元素构成的子集与其他由
个元素构成的子集具有相同的被选中概率。这个过程和技术被称为简单随机采样。简单随机采样不应当与系统随机采样相混淆。简单随机采样是一种无偏的调查技术。
简单随机采样是采样的基本形式,它可以是其他更复杂采样方法的一个组成部分。随机采样的原理是每个元素具有相同的被选中概率。例如,假设有个学生想得到球赛的门票,但是只有
张门票,他们可以采用公平的方法来决定谁能获得门票。那么,每个人都给定一个从0到
之间的数字,这些随机数字可用电子学方法或随机数表得到。在0到
之外的数字不予考虑,前
个数字可被认为是门票获得者的幸运号。
在从总体中采样时,简单随机采样通常以“无替代”的方式进行,即刻意避免从总体中选出的样本多于一次。尽管简单随机采样也可以有替代的方式进行,但是我们通常不把有替代的随机采样作为简单随机采样。无替代的采样不再是独立的,但仍然满足可交换性,因此许多结果仍然成立。对于从大总体中选出的小样本,无替代采样和有替代采样几乎相同,因为同一个体被选中两次的概率很低。
元素的无偏随机选取是很重要的,这样选取的大量样本,其平均样本能够准确地代表总体。然而,这并不能保证一个特定的样本是总体的完美代表。简单随机采样只能使我们基于这些样本得到关于整体的外部有效结论。从概念上讲,简单随机采样是概率采样技术的最简单形式。它要求一个完整的采样框架,这在构建一个大的总体中可能是不适合的。即使有了一个完整的采样框架,如果已知关于总体单元的其他有用信息,也可能会有更有效的方法。
简单随机采样的优点是没有分类误差,且除了采样框架外要求总体的预知信息最少。该方法的简单性使得对于收集到的数据解释相对更容易。因此,简单随机采样特别适合于关于总体的信息知之甚少且数据可以随机分布方式被有效采集,或者采样费用很少以至于简单性比效率更重要的情况。如果这些条件不成立,则分层采样或分类采样可能是更好的选择。
人们已经发展了几种有效的简单随机采样算法。一个最朴素的算法就是逐个抽样算法,即每步从总体集合中以相同概率取出一项放在样本中。持续此步骤直至达到我们要求的样本数。该方法的缺点是要求在总体集合中的样本能够随机抽取。还有一种选择-拒绝算法要求对选项单独通过数据集,因而是一种顺序算法。该方法要求知道数据集中样本的序号
,且备选样本处于非流动状态。一个非常简单的随机分类算法是对匀分布(0,1)中的每个随机数指定一个关键码,然后用这个关键码对样本进行分类并达到选择的最小
值。还有一种广泛使用的水库采样算法。这个算法不需要预先知识并使用等间隔。