统计学是以数据为研究对象、以相关科学为背景,分析和处理数据、建立统计模型、应用数学与计算机科学获得结论、解释相关科学现象、寻找客观规律的一门科学。数理统计主要叙述并研究有效地收集、整理和分析数据,对所考察的问题作出推断或预测,直至为采取一定的决策和行动提供依据和建议。数理统计学可用于种种专门领域(物理、化学、工程、生物、医学、经济、社会和人文科学等),但只涉及其中数据的分析问题,提供有效解决方法,寻找相关研究问题或领域的一般规律,解释相关现象并获得结论。但是,当用数理统计方法分析数据时,从统计模型的选择、实验方案的制定、统计方法的正确使用以及所得结论的恰当解释,都离不开所要研究的问题的专门知识。
关于数理统计学存在一种狭义的理解,即仅指有关统计方法的数学理论和方法。在统计方法的数学理论研究中常常会用到很多近代数学的知识,如分析学与函数论、矩阵代数、组合数学,泛函分析、拓扑学和抽象代数的知识。
数理统计学的发展大致可分20世纪之前、20世纪初至第二次世界大战结束、第二次世界大战结束后至20世纪末、21世纪初至今等四个时期。
这一时期是统计学思想出现期。在英语中,统计学(statistics)一词系由state(国家)衍化而来,意指由国家收集的有关国情的资料。在中国的《二十四史》和其他典籍中,可看到不少关于钱粮户口、水灾地震等情况的数字记载。这类记载可以看成是统计学的滥觞,但不是现代意义下的数理统计学,因为它只是有关事实的记录和整理,不是在一定理论的指导下,人们在超越数据范围之外作出的推断。
该时期可分成两段,可以把德国数学家C.F.高斯和法国数学家A.-M.勒让德[注]关于将最小二乘法用于观测数据误差分析的研究工作作为分界线,在分界线之前的属萌芽时期,未超出描述统计的范围。在萌芽时期概率论取得较大发展,为数理统计学的建立奠定了基础。常用的统计方法如直方图法、符号检验法等,在这一时期已有学者使用。英国统计学家T.贝叶斯[注]于1763年发表的《论有关机遇问题的求解》极大地影响了之后的统计学发展。萌芽时期的后一段可算作数理统计学的幼年阶段。其中,高斯等关于最小二乘法的研究工作,于20世纪初经俄国数学家A.A.马尔可夫[注]和其他学者的发展,成为数理统计学的一个重要方法。但是,这个时期数理统计学重要的发展,在于确立了这样一种观点,即数据是来自服从一定概率分布的总体,而数理统计就是用数据去推断这个概率分布中的未知方面,该观点强调了推断的重要性。该观点并非一下子就建立起来,由于高斯等数学家的工作揭示了正态分布的重要性(人们常称正态分布为高斯分布),在相当长的一个时期内,学者们普遍持有这样一种观点,即在实际问题中遇见的几乎所有连续变量,都可以令人满意地用正态分布去刻画。这样,连续变量的统计基本上被看成是正态分布的统计。这种观点对19世纪统计的发展起了很大的影响,其积极的一面是关于正态分布的统计得到了深入的发展,使统计学在实际中得到广泛应用。该观点也有消极的一面,如延缓了非参数统计的发展。19世纪末,一些统计学家,特别是英国统计学家K.皮尔逊认识到这种观点的局限性。K.皮尔逊引入皮尔逊分布族,皮尔逊分布族包含正态分布及已知的一些重要的偏态分布。K.皮尔逊认为,皮尔逊分布族可以概括常见的分布。然而统计学之后的发展并没有沿着他设想的路线进行,他的工作仍有很大的意义。特别是,K.皮尔逊引入矩估计法,矩估计法可用于估计皮尔逊分布族中的参数,是重要的参数估计方法。
德国数学家F.R.赫尔默特[注]于1875年在研究总体服从正态分布的样本方差时,发现了重要的卡方分布。英国统计学家F.高尔顿等关于回归分析的先驱性的工作,以及在时间序列分析方面的工作,是这一时期数理统计发展史上的重要事件。
这一时期是数理统计蓬勃发展并达到成熟的时期。许多重要的观点和方法,以及数理统计的主要分支学科,都是在这个时期建立和发展起来的。这个时期的成就,包含了至今仍在广泛使用的大多数统计方法,这些统计方法占据了数理统计教科书的主要篇幅。在这一时期,以英国统计学家R.A.费希尔为代表的英国学派发挥了主导作用。
K.皮尔逊于1900年提出检验拟合优度的卡方统计量,并证明其极限分布(在原假设成立时)是卡方分布,这一结果成为大样本统计的先驱性工作。K.皮尔逊的学生英国统计学家W.S.戈塞特于1908年导出了t分布——正态总体下t统计量的精确分布,创立了小样本理论。
英国统计学家费希尔为现代数理统计的形成和发展作出了重要贡献,费希尔系统发展了正态分布总体下多个统计量的抽样分布,标志着相关分析、回归分析和多元分析等统计方法建立,提出了以最大似然估计为中心的点估计理论。费希尔与英国统计学家F.耶茨[注]合作创立了实验设计,并发展了应用于试验设计的数据分析方法——方差分析法。费希尔在统计学上另一项重要的研究工作,是提出了“信任推断法”,该方法适用于解决某些困难的统计问题,如著名的贝伦斯-费希尔问题。
在数理统计学的另一个主要分支——假设检验的发展过程中,费希尔发挥了重要的作用。在假设检验理论的系统化和深入研究方面,统计学家J.奈曼与英国统计学家E.S.皮尔逊发挥了重要作用。1928至1938年期间,奈曼和E.S.皮尔逊建立了关于假设检验数学理论。其要旨是把假设检验问题转化为数学最优化问题来处理。在一定意义上,奈曼和E.S.皮尔逊的工作是统计学家A.瓦尔德统计决策理论的先驱。奈曼对数理统计作出的另一项重要贡献,是1934~1937年创立的置信区间估计理论。置信区间估计理论是基于概率的频率解释,与奈曼-皮尔逊的假设检验理论有密切联系。
多元统计分析是数理统计学中有重要应用价值的分支。1928年以前,费希尔已经在狭义的多元分析(多元正态总体的统计分析)方面做过一些研究。1928年统计学家J.威沙特[注]推导出威沙特分布。此后,多元统计分析快速发展,在作出重要贡献的学者中有中国数理统计学家许宝𫘧。许宝𫘧对多元统计分析以及线性模型的统计推断理论做出了奠基性的工作。此外,英国统计学家G.U.尤尔[注]于1925至1930年期间在关于时间序列分析研究中,引入自回归和序列相关等重要概念,奠定了时间序列研究的发展基础。统计学家瓦尔德在第二次世界大战期间发展了序贯概率比检验方法,这一方法不仅在实际应用上有重要意义,也为战后序贯分析的发展开了先声。
在这一时期,数理统计在理论和应用方面均取得快速发展。随着军事技术的快速发展以及电子计算机的出现,数理统计应用达到了前所未有的规模。在一些发达国家数理统计得到了广泛应用。例如在大批量生产工业产品时通过使用统计质量管理方法,对这些发达国家在第二次世界大战后的经济复苏和发展发挥了重要作用。
这一时期的数理统计的理论研究是沿着纵深的方向和使用复杂数学工具的方向发展的。将第二次世界大战之前已有发端的理论引向深入与完善,如大样本理论中的最大似然估计和非参数统计,在第二次世界大战前只有初步的结果,在这一时期已达到完善。
瓦尔德于1950年创立了统计决策理论,该理论从人与大自然博弈的观点出发,试图把各种统计问题归并在一个统一的模式,统计决策理论对二战后数理统计各分支的发展产生了重要影响。统计决策理论极大改变了参数估计的面貌。对于用统计决策理论的观点看待统计问题是否恰当,统计学界至今仍存分歧。
一个引人注目的现象是贝叶斯统计的快速发展。贝叶斯统计思想可追溯至英国统计学家贝叶斯1763年的工作。贝叶斯统计在理论上的进展以及它在应用上的价值,使其为更多的人所了解并产生吸引力。
电子计算机的广泛应用,也对这一时期数理统计学的发展产生不小的影响。有了计算机,过去一些停留在理论上的方法得以付诸应用,而这又反过来促进人们提出和解决一些理论上的问题。如在涉及数十个自变量的回归中的变量选择的问题。没有电子计算机,这种问题只能停留在纸面上,而现在这种问题所涉及的计算已不难实现,人们提出了很多选择标准并进行了理论上的探讨,丰富了回归分析这个分支的内容。通过计算机模拟,可以在实际应用中避开一些难于解决的、复杂的抽样分布推导问题。另外,计算机在短时间内处理大量数据的能力,使人们能够从多角度对数据进行透彻分析,从中提取出更多的信息。有的学者把这方面的工作称为数据分析。从另一方面看,这在一定程度上降低了模型(即理论)的作用。在某些领域的统计应用中,已表现出忽视模型的倾向。电子计算机的广泛应用极大地促进了数理统计的发展,随着数理统计快速发展,统计学家也提出了一些很有意义的研究课题。
在数理统计发展过程中,统计学家提出了对数理统计发展具有里程碑意义的统计方法。英国统计学家G.E.P.博克斯和P.J.胡贝尔以及美国计量经济学家R.W.科恩克[注]提出了稳健统计。稳健统计是数理统计的一个分支,研究当总体稍有变动及记录数据有误时的统计方法。“稳健性”由博克斯于1953年提出,关于“稳健性”的思想,可追溯到20世纪初期。
到20世纪中后期,统计推断已不再局限于大样本理论,美国统计学家B.埃弗龙等发展出了自助法、刀切法等统计推断方法。
随着数据采集方式快速发展,出现了超高维数据,由此产生数理统计新的方法,如数据降维和变量选择等方法,研究超高维数据的统计分析方法称高维统计。高维统计在人文领域、生物医学、经济学、金融学等领域得到广泛应用。美国统计学家T.黑斯蒂[注]、R.提伯史瑞尼等在高维统计做出了许多重要的工作。
在这一时期,数据科学的发展对数理统计产生重要的影响。数理统计逐步由模型发展转向算法发展,与机器学习、人工智能等技术联系更加紧密。传统意义上,统计学的推断形式分可为点估计、区间估计和假设检验、序贯决策。相关的研究内容包括回归分析、时间序列分析、判别分析、聚类分析等,具有“模型+数据+结论/决策”的模式。随着数据科学的发展,统计分析模式开始以如下形式呈现:研究者在计算机运用计算机语言编写代码,由计算机执行代码对数据进行分析,给出分析结果,研究者根据分析结果进行决策。数据科学的广泛应用极大促进了数理统计学发展,统计学家据此提出了一些有意义的研究课题。
统计学以数据为分析对象,通过统计方法提取数据中的有效信息,而数理统计是统计学的重要分支,其目的就是通过数据采集,数据处理、进行统计建模和统计推断,寻找出数据背后的客观规律,解释相关现象或发展出数据背景的学科原理或进行统计决策。涉及数据采集、数据处理、统计建模、统计推断、统计决策等。
经典的数据获取方式包括抽样、随机试验和观察采样。无论采取何种方式获得数据,都强调获得数据具有随机性。现代数据采集的方式更为广泛,数据结构和类型更加复杂和多样。
抽样是从总体中抽取个体(以形成样本)的行为。根据总体的大小通常分为有限总体抽样和无限总体抽样。①有限总体抽样。从数目有限的总体(如某地区的全部中、小型企业)中抽取一部分。实现总体中每一个个体有同等机会被抽出(某些情况下,可赋予某些个体以更大或更小的被抽取机会),同时要兼顾操作方便的目标。如何实现这些目标的研究,构成了数理统计学中的抽样调查。②无限总体抽样。在无限总体中随机抽取个体,通常研究的总体具有无限性,例如,对于大量生产的某种小件商品,总产量可以认为是无限的。
随机试验通常是可以重复的试验。通过试验获取数据。如在农业领域,通过试验田选择优良的种子品种,为确定一组最佳的工艺参数而试制一些产品等均属于随机试验。数理统计关注试验中涉及的一般性的安排问题,目的是节省试验次数,并使所得数据有一个适合于统计分析的结构,高效地达到试验目标。如何高效实现试验目标的研究,构成数理统计学的试验设计与分析(见试验设计)。
观察采样是对数据产生过程直接观察,而不控制数据产生过程,具有被动性。“被动”的含义是指观察者不干扰被观察对象。例如经济学家研究经济增长与投入的关系,观察经济中增长、投入及其他经济指标,建立相应经济增长模型对未来经济进行预测等相关研究。通常只能进行被动观察,而无法进行主动干预。
观察数据通常无法预先通过设计试验来获得,而只能被动获得数据,这种数据通常无法由重复试验产生。例如股票价格数据等都是一些观察数据,无法通过重复试验获得。但并不意味试验完全无法控制,可以对试验进行有限设计,例如,预先确定观察时间区间和采集数据频率等。经济学和管理学中的数据多是观察数据。观察数据由于不是在控制条件下的试验获得,数据的随机误差一般较大,往往会影响结论的可靠性和精确性。
随着科技的进步,获取数据的方式方法越来越多,数据量也越来越大,数据复杂度也随之增加,出现了所谓的大数据。大数据的数据容量与数据维数巨大,经常出现多源异构、异质性等特性。大数据技术包括对数据处理与分析、建立统计模型和进行信息挖掘等。
采集的原始数据通常是一堆杂乱无章的数字,大数据还包括文本、影像、声音等非结构化数据,从中难于直接解读出有用的信息。数据处理的目的是通过适当形式(如图、表)表达数据中包含的有用信息。可以通过计算某些特征数字实现数据信息表达。如为调查某行业工人的收入,抽样调查了1万人的收入,经过数据整理,做成表格,通过表格标识出以下5种收入的工人比率:月收入500元以下的工人比率,月收入500~1000元工人比率、1000以上~2000元工人比率、2000以上~3000元工人比率和月收入在3000元以上的工人比率,从而了解这1万人的收入分布情况。
由样本计算出的特征数字,在数理统计中称统计量,统计量可以看作解决某些问题的数据解释,人们可以根据统计量的数值情况进行决策。根据研究的问题不同,可以构造各种不同的统计量。统计量是数理统计的重要研究内容。常用的统计量包括以下三类:①算术平均值,又称样本均值。把样本中的所有数值相加再除以样本量所得(见算术平均数)。②样本中位数。样本中的数值按大小顺序排列位居正中的那一个数(见中位数)。若样本量为偶数,则指正中的两个数值的平均值。算数平均值和样本中位数反映样本中数值的平均水平。③刻画样本中数值的分散程度的统计量。这类统计量中常用的是样本方差和样本标准差。
在数据初步分析的基础上进行数学建模,包括参数模型、非参数模型和半参数模型等。①参数模型。通常假设总体服从某个分布,这个分布可以由一些参数确定,如正态分布由均值和标准差确定,在此基础上构建的模型称为参数模型。②非参数模型。对于总体的分布不作任何假设或者数据分布假设自由,只知道其分布是存在的,所以就无法得到其分布的相关参数,只能通过非参数统计的方法进行推断。③半参数模型。结合了参数模型和非参数模型的回归模型。通常用于非参数模型表现不佳的情况,或者研究人员希望使用参数模型,但与回归子集有关的函数形式或误差密度不为人知的情况。
依据样本,对样本所属的总体的某方面(研究者关注方面)性状做出推断。如在调查某行业工人收入的例子中,研究者主要关注的是通过抽出的1万人收入调查资料,推断该行业全部工人(行业工人数量可能达到数百万)的收入情况。这是它与描述统计的区别之处。统计推断通常包括参数估计、假设检验、非参数统计、回归分析、多元统计分析和时间序列分析等。
与统计推断相比,统计决策具有以下两个特点:①统计决策重在决策或行动,而统计推断可以只反映一种认识,不一定有后续行动。②统计决策引入“损失”的概念以反映行动的后果,后果(损失)必须能够量化即落实为经济上的损失。如考虑环境的代价,须将这种代价量化为经济损失。统计决策的准则是“损失在某种意义下最小化”。
研究方向包括抽样调查、实验设计、参数估计、假设检验、贝叶斯统计、统计决策理论、非参数统计、回归分析、序贯分析、时间序列分析、统计质量控制等。
数理统计以数理为基础,为其他应用学科的发展提供丰富的模型、理论与方法,并同这些学科结合从而发展出许多相关的统计学分支和重要的交叉学科。例如,与生物医学相结合发展出的生物统计学,与经济与金融学相结合发展出金融统计学,与保险学相结合发展出的精算学,与管理科学相结合发展出的管理统计等。
数理统计在工业中的应用,主要体现在以下两个方面:①在工业生产中,存在试制新产品和改进老产品、改进工艺流程、使用代用原材料和寻求适当的配方等问题。正交设计、回归设计与回归分析、方差分析、多元分析等统计方法是可用于解决这类问题的有用工具。②在现代工业生产中,存在大批量生产和质量可靠要求,为保证产品质量,需要在连续的生产过程中进行工序控制,因此需要制定成批产品的抽样验收方案,从而对大批生产的元件进行寿命试验,以估计元件的可靠性及系统的可靠性。为解决这些问题发展出统计质量管理,质量控制图、抽样检验、可靠性统计分析等统计方法是统计质量管理的重要内容。
在医学与生命科学领域,例如对于防治疾病,数理统计方法是发现致病因素的重要工具;对于临床试验,可以运用数理统计方法确定某种药物对某种疾病的疗效,比较治疗方法的疗效。相关的数理统计方法包括对比试验、列联表、回归分析、治疗效果分析等是这方面的常用工具。在基因组学研究上,科学家大量应用统计方法。例如,寻找基因突变或遗传基因等。
统计方法在社会领域中的一个重要应用是抽样调查。当由于人力、物力、时间等条件有限而不允许进行全面调查时,使用抽样调查可以节约成本并快速完成,并能获得满意的结果。对社会现象的研究有向定量化发展的趋势。在许多人文社会科学领域,专家学者开始大量地使用数理统计进行定量分析。例如,在法学中使用数理统计方法进行案件判决或者研究法律影响,以及提供可靠性数据分析证据等。在历史学中使用统计方法来探寻历史事件发生的可能性,或者在考古学中使用统计方法推断考古文物可能隐藏的地点或大体数量等。在社会科学中较早使用数理统计的学科是社会学,在社会学中,运用数理统计方法定量分析人类行为特征或相互关系,政策、环境及事件对人类行为的影响等。
在经济学领域,20世纪二三十年代,时间序列分析方法已经被用于市场预测。在经济科学中的数量经济学的研究方法中包括了回归分析方法、随机过程统计方法等。在金融学领域,数理统计在资产组合管理、风险控制、资产定价、投资学、行为金融等得到了广泛应用。
数理统计方法的基础理论研究和应用研究领域广泛。在基础理论研究中,学者往往从某种观点出发,根据初步观察结果提出相关理论。在已有理论基础上,需要进行实验验证,试验验证技术包括实验设计和数据统计分析方法。学者也可以通过统计分析发现某种规律,然后提出相关理论对该规律进行解释。在应用研究中,学者通过分析实验数据和观察数据,研究现象规律。