直方图由英国著名数学家和生物统计学家K.皮尔逊于1895年提出。通常直方图的横轴表示数据分组,纵轴表示频数或频率。某班学生每周学习《统计学》时间(小时)的直方图(图1),横轴划分为7个区间,每一个区间对应一个时间分组,组距决定了矩形的宽度,纵轴表示频数,矩形的高低反映了落入该组的频数多少。每周学习统计学的小时数呈现对称分布,分布区间为[0,34],在全班37名学生中有10名学生选择了15~19小时,选择30~34小时的仅有两个人。
如果直方图的纵轴表示频数,则称为频数直方图,如果纵轴表示频率,则成为频率直方图。对同一组数据,频数直方图与频率直方图具有完全相同的形状和横坐标,不同之处在于纵轴。
通常会将直方图与叠加在直方图之上对应的正态分布曲线进行对比,用于快速得到数据的大致分布。每周学习《统计学》的时间分布近似正态分布(图2)。
直方图两个比较重要的参数分别是直方图起点以及组距大小。一般做法是将直方图的起点设为最小值,也可以根据实际情况对直方图的起始值和组距做适当的调整。组距又称平滑参数。组距越小,直方图方差越大;组距越大,直方图越平滑。组距较大时为单峰,而随着组距变小,直方图方差变大,并出现伪峰(图3)。
组距的确定通常需要先确定组数
,两者的关系如下:
组数的确定方法包括平方根法、斯特奇斯(Sturges)公式及莱斯(Rice)原则,多恩(Doane)公式。令
为样本容量,具体计算公式如下:
①平方根方法。,该方法通常在电子表软件Excel中绘制直方图时使用。
②斯特奇斯公式。,该方法假设原始数据服从正态分布,如果原始数据数据量较少或者不服从正态分布,分组效果较差。
③莱斯原则。,该方法认为是斯特奇斯公式的简化。
④多恩公式。
式中为估计分布的偏度系数;
。多恩公式是对斯特奇斯公式的补充,常用于原始数据不服从正态分布的情况。
除了先计算组数再计算得到组距
外,还有正态参考原则、斯科特(Scott)原则、弗里德曼-迪亚科尼斯(Freedman-Diaconis)原则等,具体如下:
①正态参考原则。,式中
为总体分布的标准差,该方法适用于原始数据服从正态分布。
②斯科特原则。,该方法使用样本方差作为总体方差估计来计算组距。
③弗里德曼-迪亚科尼斯原则。,该方法使用四分位距(IQR),而不是使用样本标准差来计算组距。
当数据为偏态分布或者厚尾分布时,使用正态参考原则将导致组距过宽。可以使用如下的偏态数据校正因子:
如果数据服从偏态分布,那么当使用正态参考原则组距计算方法时,应当乘式(2)的偏态数据矫正因子。
直方图可以直观地反映数据的某些分布特征,如数据分布形状、分布区间以及分组频数的相对比例等。直方图的主要用途包括以下3点:①检验数据的分布特征,了解数据的集中或离散程度。②用于过程能力调查和不合格品率估计,直观反映生产过程的质量状况信息。③客观地反映操作者的技术水平和主观努力程度。