描述统计是统计学的一个基础性分支,已经在数百年的统计学研究和应用中逐渐发展和演变。描述统计提供有效的方法来组织、汇总和可视化数据,方便人们更好地理解数据。描述统计的概念和方法是通过众多统计学家、数学家和研究者的合作和发展形成的。
用图、表和概括性的数字研究数据基本特征的统计方法。与推断统计并称为数理统计方法的两大基本支柱。
描述统计是统计学的一个基础性分支,已经在数百年的统计学研究和应用中逐渐发展和演变。描述统计提供有效的方法来组织、汇总和可视化数据,方便人们更好地理解数据。描述统计的概念和方法是通过众多统计学家、数学家和研究者的合作和发展形成的。
描述统计在统计学的发展中不断成熟完善。17世纪,概率和统计的一些基本概念开始发展。英国人口统计学家J.格朗特的《关于死亡表的自然的和政治的观察》于1662年首次发布,这是一项早期的人口统计工作,用于追踪伦敦的死亡率和出生率。这些数据被整理成统计表格,描述了不同人口组群的生死情况。18世纪,德国数学家C.F.高斯和法国数学家P.-S.拉普拉斯等数学家对概率和统计的理论进行了研究。19世纪,统计学的应用领域开始扩展,特别是在政府和社会科学中。英国生物统计学家F.高尔顿和英国统计学家K.皮尔逊研究优生学和生物统计学时,把研究手段抽象化的研究方法,后来推广应用于经济、社会、人口等各个领域的研究。高尔顿提出了统计中的“众数”概念。20世纪,随着数据的日趋复杂,统计技术的不断进步,描述统计呈现出新的特征,发展出探索性数据分析这一方向。美国统计学家J.W.图基于1977年首次提出了探索性数据分析的概念,早期的探索性数据分析主要借鉴了来自生物学家们的数据分析方法,并引入统计学中。美国统计学家D.C.霍格林[注]于1982年对探索性数据分析的概念进行了更系统的阐述。这使其成为一种统计学的新思想、新方向,是描述统计日渐成熟的重要标志。
描述统计作为数据处理的初始步骤,是后续研究的基础,当然描述统计本身也可作为对数据的一项研究分析。描述统计主要包括数据预处理、数据的显示方法、数据分布特征的概括等;主要通过图表方法,反映数据的分布状态、数字特征与变量之间的关系。常用的描述统计方法包括数据数字特征、统计图、统计表。
数据的数字特征的刻画主要包括数据集中趋势、数据离散程度、数据分布特征等。
数据集中趋势反映一组数据向该组数据中心位置集中的趋势,主要度量指标有平均数、众数、中位数、分位数等。①平均数。主要指均值,表示一组数据或统计总体的平均特征的值。它表示一组数据的中心位置,会受极端值的影响。均值的计算方法是将一组数据的所有数据值相加,然后除以该组数据的数据值的数量。②众数。一组数据中出现频率最高的数据值。一组数据中可以有一个或多个众数。③中位数。一组数据按大小顺序排列,位置居中的数据值(当数据量为奇数)或位置居中的两个数据值的均数(当数据量为偶数)。它表示一组数据的中心位置,不受极端值的影响。④分位数。一组数据按数值大小顺序排列,得到的分界点上的数值,常用四分位数。
数据离散程度指在一系列数据偏离该系列数据中心位置的程度,主要度量指标有极差、四分位差、标准差、方差和变异系数。①极差。数据中最大值和最小值之间的差值,用于表示数据的分布范围。②四分位差。在一组按大小顺序排列的数据中,位于中间50%的数据的极差的一半。四分位差是一组数据的上四分位数(Q3)与下四分位数(Q1)之间的差值。③标准差。衡量一组数据与该组数据的均值之间的平均偏离程度。④方差。标准差的平方,表示一组数据与该组数据的均值之间的平均偏离程度的平方。⑤变异系数。一组数据的标准差与均值的比。变异系数消除了量纲的影响,是一种对数据离散程度的标准化度量方式。
数据集中趋势和数据离散程度提供了一组数据向该组数据中心位置集中趋势和偏离程度的信息,一般将两者结合使用以刻画数据数字特征。例如,平均数相同的两组数据,这两组数据离散程度可以不相同。若一组数据离散程度较低,表现为该组数据分布比较集中,方差较小,则该组数据的平均数对该组数据的代表性较好。若另一组数据离散程度较高,方差较大,则该组数据的平均数对该组数据的的代表性较差。
数据分布特征的度量指标主要包括偏度系数、峰度系数和相关系数。①偏度系数。用于度量一组数据分布的偏斜程度。当偏度系数大于0,表示数据分布向右偏斜;当偏度系数小于0,表示数据分布向左偏斜。②峰度系数。反映一组数据频数分布曲线顶端尖峭或扁平程度的指标。当峰度系数大于0,表示该组数据频数分布曲线顶端尖峭;当峰度系数小于0,表示该组数据频数分布曲线顶端扁平。③相关系数。衡量两个随机变量间线性相关程度的指标。常用的相关系数包括斯皮尔曼相关系数、肯德尔相关系数和广义相关系数。
用来可视化数据分布和随机变量关系的图形表示方法。常见的统计图包括直方图、线图、散点图、箱线图、饼形图、条形图、雷达图和气泡图。①直方图。用于展示数据的分布情况,特别是连续数据的分布。它将数据分成若干区间,并显示每个区间内的数据点数量。直方图有助于理解数据集中程度和数据离散程度。②线图。用于展示数据随时间或其他连续变量的变化趋势。它通过连接数据点的线条来可视化数据变化趋势,常用于时间序列数据可视化。③散点图。通过散点的密度和方向表示独立变量与相关变量关系类型的二维或三维图形。广泛应用于数据分析中的一种可视化方法,主要用于展示两个变量之间的关系。④箱线图。用于展示数据的分布和离群值情况。可用于展示数据的中位数、四分位数、范围和可能的离群值,有助于研究者理解数据的分散情况。⑤饼形图。用圆的总面积表示事物的全部,圆内各扇形面积表示各组成部分所占构成比的形式。常用于呈现数据的相对比例。⑥条形图。用等宽直条的长短来表示相互独立的各指标数值大小的一种形式,是常用的显示分组数据的图形。通常用于显示离散数据。⑦雷达图。用于展示多个变量之间的相对大小。它的形状类似于雷达扫描的扇形,每个轴表示一个变量,用于比较不同变量的值。⑧气泡图。主要用于展示三维数据,其中每个数据点由一个圆点(气泡)表示,其大小和颜色可以表示不同维度的数据。
此外,统计图种类还有很多,如茎叶图、南丁格尔玫瑰图、Q-Q图、P-P图,切尔诺夫脸谱图、矩阵图、小提琴图、网图、树图、等高线图、地理信息图、词云图、空间统计图、马赛克图和聚类图等。根据数据的特点,可以选择合适的图更好地理解数据和展示信息。统计图是数据分析和数据可视化的关键工具。
统计表是用来组织、比较、汇总数据的表格形式。通常包括行和列,其中行表示不同的观察或类别,而列表示不同的变量或属性。常用的统计表包括频数分布表、列联表和汇总表等,用于展示数据的分组和分布情况。①频数分布表。用于统计数据中各个数值或类别出现的频率。它通常包括数据值和频数,有助于理解数据的分布。②列联表。用于分析两个或多个离散变量之间的关系。可以显示不同组合下的频数或百分比,采用交叉分析和卡方检验可以检验行列之间的相关性。③汇总表。用于总结变量的常见统计特征,通常包括均值、中位数、众数、标准差等统计指标。
统计表是数据分析和数据呈现的重要工具,根据不同分析需要,选择适当的统计表非常重要。
通常人们把一个完整的统计数据分析过程分为描述统计和推断统计两部分。描述统计与推断统计具有明显的不同,描述统计目的是对样本进行总结和概括,推断统计侧重推断总体参数或“验证”统计模型的假设是否正确,目的是找到数据的内在规律。描述统计与推断统计相辅相成,缺一不可,研究人员获得数据后,首先对数据进行统计描述,再对数据进行统计推断,是数据分析的一般流程。描述统计体现了对数据基本特征的初步“探索”,是推断统计的基础,同样是数据分析的基础,也是统计学研究的基础,推断统计的发展也使描述统计的内容更为丰富。
描述统计在医学和公共卫生、金融、市场研究等各个领域得到广泛应用,对各个学科的发展起到重要的推进作用。
随着计算技术的发展,数据可视化技术得到了快速发展,人们有了更多的可视化工具,R软件和Python软件等软件的流行推动了传统的描述统计中的统计图发生重要的变化,2019年考普斯会长奖颁发给了美国统计学家H.威克姆(Hadley Wickham),以表彰他在统计应用及统计软件领域做出的贡献,威克姆在数据预处理及统计图形领域提出了诸多R包工具。不同于以往该奖项较多颁给理论统计工作者,威克姆的获奖无疑再次印证了描述统计的重要作用。
随着大数据的兴起,描述统计的应用领域扩大到处理大规模数据领域。新的统计方法和技术不断发展,以应对大数据的挑战。例如,有着广泛市场需求的聚类技术和降维技术呈现出繁荣发展的景象,聚类技术从层次聚类、基于距离的聚类,再到基于密度的聚类,多方面发展;聚类维度也从单向聚类发展到双向聚类、多向聚类。在大数据的背景下,降维技术从传统的矩阵压缩,如奇异值分解、非负矩阵分解等,发展到基于模型的变量选择的岭回归、最小绝对收缩和选择算子(LASSO)等变量收缩技术,和深度学习框架的应用体系,体现了描述统计的思想。描述统计被越来越多地应用不同领域的交叉学科研究,如生物统计学、环境统计学、神经科学统计学等学科。
1983年美国统计学家霍格林、F.莫斯特勒[注]、图基出版了《探索性数据分析》,引起了统计学界的关注,成为描述统计领域的重要专著。描述统计学科主要相关学术刊物包括《统计与决策》《美国统计协会杂志》《统计研究》《数理统计与管理》等。