对一个变量的观测值进行分组,例如,在做直方图时需要首先对数据进行分组再以各组数据的频率与组距做直方图。对数据分组的方法主要有单项式分组和组距式分组两种。单项式分组是针对离散观测值,仅仅根据取值不同来进行分组,比如将评分取值为{1,2,3,4,5}的评分结果分为5组。组距式分组则是针对连续型观测值,根据观测值的取值范围进行分组,比如,年龄可分为四组:0~6,7~17,18~59,大于60,分别代表儿童、青少年、中青年和老年。组距式分组的每一组的起始值与终止值称作组下限与组上限,组限的平均值称作该组的组中值,即组中值=(组上限+组下限)/2,组限的差称作该组的组距,即组距=组上限-组下限。
一般来说,每个组的组限都有上限和下限两个值,但也经常遇到只有上限或者只有下限的情况,例如上述年龄分组的最后一组则只有下限60。当某个组只有一个组限时称为开口组,若只有组上限则称为下开口组,若只有组下限则称为上开口组。对于上开口组,组中值=组下限+相邻组组距/2;对于下开口组,组中值=组上限-相邻组组距/2(见表)。使用组中值作为一个组的代表值,需要组内数据分布比较均匀或者比较对称,否则代表性将很差。
分组 | 组限 | 组距 | 组中值 | |
组下限 | 组上限 | |||
0~6 | 0 | 6 | 6 | 3 |
7~17 | 7 | 17 | 10 | 12 |
18~59 | 18 | 59 | 41 | 38.5 |
60 | \ | 80.5 |