原假设是各样本服从的概率分布具有相同的中位数,如果原假设被拒绝,意味着至少一个样本的概率分布的中位数不同于其他样本。相较于参数检验,克鲁斯卡尔-沃利斯检验不假设样本来自正态分布。克鲁斯卡尔-沃利斯检验的基本思想是:首先,将多组样本数混合并按升序排序,求出各变量值的秩;然后,考察各组秩的均值是否存在显著差异。如果各组秩的均值不存在显著差异,则认为多组数据充分混合,数值相差不大,可以认为多个总体的分布无显著差异;反之,如果各组秩的均值存在显著差异,则是多组数据无法混合,有些组的数值普遍偏大,有些组的数值普遍偏小,可认为多个总体的分布存在显著差异,至少有一个样本不同于其他样本。为研究各组的秩差异,可借鉴方差分析的方法。方差分析认为,各样本组秩的总变差一方面源于各样本组之间的差异(组问差),另一方面源于各样本组内的抽样误差(组内差)。如果各样本组秩的总变差的大部分可由组间差解释,则表明各样本组的总体分布存在显著差异;反之,如果各样本组秩的总变差的大部分不能由组间差解释,则表明各样本组的总体分布没有显著差异。据此构造统计量:
式中为总体数;
为各总体样本总数;
为各总体各自样本数;
为第
组样本平均秩;
为总平均秩,等于
。原假设成立,且在分组数
较大时,克鲁斯卡尔-沃利斯统计量近似服从自由度为
的卡方分布。
例如,某电信运营公司服务热线为研究不同班次受理用户热线电话的分布是否存在显著差异,连续抽取三个班次15周受理热线电话的数据见表。
班次1 | 2240 | 1320 | 1880 | 1660 | 1500 | 1880 | 1840 | 1140 |
960 | 1020 | 1140 | 1180 | 2260 | 1460 | 1100 | ||
班次2 | 1200 | 1280 | 1720 | 2180 | 1780 | 1820 | 1640 | 840 |
1200 | 1120 | 1440 | 1040 | 720 | 560 | 1420 | ||
班次3 | 930 | 1940 | 560 | 720 | 1040 | 1080 | 930 | 1800 |
800 | 1200 | 980 | 1031 | 870 | 1080 | 870 |
建立原假设:三个班次受理热线电话次数分布相同,备择假设
:三个班次受理热线电话次数分布不同。克鲁斯卡尔-沃利斯检验算得统计量
,在0.05显著性水平下的拒绝域为
,由于
,故拒绝原假设,认为三个班次受理热线电话次数分布不同。