抽样调查是社会经济发展中需要搜集数据和资料应运而生的。由于全面调查往往费时、费力,成本较高,所以逐渐提出抽样调查的理论和方法。抽样调查发展至今已有200多年的历史,发展过程大致可分为五个阶段。
一种以概率论为基础,按随机原则从调查总体中抽取部分单位进行观察,用以估计推算总体某些数量特征的非全面调查。又称样本调查、抽样技术或抽样法。
抽样调查是社会经济发展中需要搜集数据和资料应运而生的。由于全面调查往往费时、费力,成本较高,所以逐渐提出抽样调查的理论和方法。抽样调查发展至今已有200多年的历史,发展过程大致可分为五个阶段。
萌芽阶段。最早的抽样调查是在1802年,法国著名数学家P.S.拉普拉斯受法国政府委托,对法国人口进行估计。拉普拉斯的方法是先按不同自然条件抽取得30个行政区,在抽中的行政区中又抽一些小区。选择小区的方法并没有采取随机的方式,而是以热心和有知识的区长作为抽选标准。最后,他用样本中人口总数据与出生人口数之间的比率来推断法国总人口数,这实际上就是现在的二阶抽样方法,在估计中使用了比估计量。但是,在19世纪的大部分时期内,抽样调查尚未成为一种方法,只是在个别场合应用,社会、经济和人口调查主要采用的还是全面调查方法。
代表性调查方法阶段。1894年,挪威中央统计局第一任局长的统计学家A.N.凯尔(Anders Niscolai Kiaer),为了每十年进行一次人口普查,提出了代表性样本调查,这种方法就是根据抽样设计,从总体的正常代表中合理地收集数据。第一个代表性调查是1894年进行的关于挪威退休金和疾病保险金的调查,这是第一次从总体中抽取部分有代表性的单元进行的调查,并用来说明总体,取得较好效果。1895年,他又组织了一次成年男子收入按职业、年龄和社会地位分组的代表性调查。同年,在瑞士伯尔尼召开的国际统计学会(International Statistical Institute,简称ISI)第五次大会上,凯尔正式提出用代表性调查方法代替全面调查的建议,标志着抽样调查的开始。1903年,代表性调查方法在ISI第九次大会上得到统计学家们的承认。
概率抽样理论形成阶段。自1903年以后,用样本说明总体的思想已逐渐被接受。1906年,英国统计学家A.L.鲍利(Arthur Lyon Bowley,1869~1957)用实际数字论证了单纯随机抽样情况下,统计量遵从中心极限定理,在大样本时近似服从正态分布,样本均值的方差与所抽样的总体大小无关,强调把概率抽样应用到统计调查的必要性。1912年,他在对英国雷亭镇(Reading,英国英格兰东南区域伯克郡的自治市镇)贫困状态的研究中又采用了机械抽样方法。鲍利从理论上阐明了概率抽样原理,为抽样调查奠定了理论基础。
经典抽样调查理论成熟阶段。1934年,波兰统计学家J.奈曼(Jerzy Neyman,1894~1981)根据概率论的原理提出了置信区间的推断理论,此后又提出了分层抽样的最优分配、比估计和回归估计,对抽样调查做出了重要贡献,他打破了要求每个单元都是等概抽选以及样本必须按比例代表总体的传统思想,证明了分层抽样不等比例分配的样本同样可以得到有效的估计,被认为是抽样调查的一个里程碑。
对抽样理论做出重要贡献的另一位统计学家是英国统计学家R.A.费歇尔(Ronald Aylmer Fisher,1890~1962),他在1919~1933年创立了近代试验设计和方差分析理论与方法,提出了试验设计的随机化、重复及区组三原则。在抽样调查应用方面,美国是较早的国家之一。20世纪40年代开始,概率抽样方法成为美国政府调查的主要手段。1942年,美国统计学家M.H.汉森(Morris Howard Hansen,1910~1990)和W.N.赫维茨(William N.Hurwitz)证明了整群抽样的方差取决于群内相关系数大小,发展了不等概抽样特别是与单元大小成比例的PPS抽样。1977年,美国统计学家W.G.科克伦(William Gemmell Cochran,1909~1980)出版了经典专著《抽样技术》。
现代抽样调查阶段。从20世纪至21世纪,抽样调查发展方向是模型化推断、模型辅助推断、小域估计以及对非抽样误差分析与处理。
在抽样调查中,把调查对象的全体称为总体,总体中的每个对象称为单元。抽样调查之前,总体必须划分成不同的单元,这些单元相互不重叠,并且能完全覆盖总体。单元在某方面的特征名称称为标志,其取值称为标志值。总体在某标志上的数量特征称为总体特征数,包括:总体平均数、总体总量、总体方差、标准差和总体频率等。假设总体由个单元组成,各单元在某个标志上的标志值为:
,常用总体特征数的计算公式如下。
总体平均数是总体各单元在某个数量标志值的平均数,计算公式:
总体总量是总体各单元在某个数量标志值的合计,计算公式:
总体方差表示总体各单元标志值的分散程度,计算公式:
总体标准差表示总体各单元的标志值与总体平均数之间的距离,计算公式:
在单元数为的总体中具有某种特点的单元数为
,总体频率或总体成数的计算公式:
抽样调查的目的就是通过样本对总体特征数做出估计。在抽样调查中,从总体抽取的部分单元称为样本,样本中的每个单元称为样本单元,样本单元数称为样本容量。样本抽取方法称为抽样方法,包括单纯随机抽样、机械抽样、分层随机抽样、整群抽样和二阶抽样等。
抽样调查依据概率统计理论做出适宜的抽样方案及数据分析方案,需要进行大量的现场调查。抽样调查涉及组织管理、测量技术等方面,包括以下内容:①明确调查目的,就是在调查之前要明确希望得到什么信息。②调查准备阶段,包括确定总体、目标量、抽样框、抽样方法。③现场调查阶段,包括人员培训、质量控制、组织管理等。④数据处理阶段,包括数据编辑、估计、分析。⑤最后,撰写总结报告。
所有决策都需要信息。抽样调查就是从统计调查总体中抽取样本进行调查,获取数据,对总体特征做出推断,为决策者提供信息。与全面调查相比,抽样调查具有成本低、时效性强的特点,广泛应用于社会、经济、科技、自然等各个领域,成为获取统计数据的最重要手段。抽样调查也早已成为现代统计学的重要组成部分,是20世纪人类最伟大的科学成就之一。
抽样调查存在的主要问题:①由于技术性强而不易理解和掌握。②抽样推断的结果有时也会产生差错。③对于总体未被调查的部分很难提供有价值的信息。④有些理论方法问题还没有得到完全解决。
抽样调查向模型化推断、模型辅助推断、小域估计以及对非抽样误差分析与处理方向发展。传统抽样调查是以抽样设计为基础随机化抽选样本,应用样本数据对总体进行推断,这种推断称为随机化推断。模型化推断是将有限总体的研究指标值看作是某个随机模型(即超总体)的一个具体实现,推断建立在模型的基础上。模型辅助推断是这两种推断的结合,它综合利用抽样设计和模型信息进行统计推断。1963年,澳大利亚统计学家K.R.W.布鲁尔(Kenneth R.W.Brewer)首先提出基于模型的推断方法。1970年,美国统计学家R.M.罗亚尔(Richard Miles Royall)建立了基于模型推断的理论体系。小域(small area)是需要推断但不作为层处理的子总体。小域估计可以提高精度,是当今国际抽样调查理论研究的热点之一,代表人物有加拿大统计学家J.N.K.拉奥(Jon N.K.Rao)、M.P.辛(Mangala P.Singh),美国统计学家M.高希(Malay Ghosh)等。非抽样误差分析包括来源、影响分析和处理技术。