假设连续型总体的分布函数为,
是来自
的一组样本,连续型总体
的分布函数为
,
是来自
的一组样本,且两组样本相互独立。考虑如下的检验问题:
式中不等号表示分布函数不等于分布函数
至少对某一点成立。
类似于科尔莫戈罗夫检验构造的检验统计量,斯米尔诺夫提出如下检验统计量:
式中和
分别为两个总体所对应的经验分布函数。当原假设为真时,
会比较小,故当
超过一定的阈值,则拒绝原假设。检验统计量
称为斯米尔诺夫检验统计量,该检验称为斯米尔诺夫检验。
检验两个总体的分布是否相同的一类拟合优度检验。由苏联数学家V.I.斯米尔诺夫[注]于1948年提出。
假设连续型总体的分布函数为,
是来自
的一组样本,连续型总体
的分布函数为
,
是来自
的一组样本,且两组样本相互独立。考虑如下的检验问题:
式中不等号表示分布函数不等于分布函数
至少对某一点成立。
类似于科尔莫戈罗夫检验构造的检验统计量,斯米尔诺夫提出如下检验统计量:
式中和
分别为两个总体所对应的经验分布函数。当原假设为真时,
会比较小,故当
超过一定的阈值,则拒绝原假设。检验统计量
称为斯米尔诺夫检验统计量,该检验称为斯米尔诺夫检验。
为了确定该阈值,得到拒绝域,需要利用如下结论:
定理:如果,且
为连续函数,则有:
当原假设成立时,通过上述定理,检验统计量的渐近分布不依赖于总体的真分布函数
,可以利用其极限分布(科尔莫戈罗夫分布)来确定拒绝域。即对于给定的显著性水平
,可以选择临界值
,使得:
记,
是极限分布(科尔莫戈罗夫分布)的下
分位数,则
。 从而得到假设检验的拒绝域为:
式中为
的观察值。
通过一个例子说明斯米尔诺夫检验的应用。在某车床上加工一种零件,在工人刚接班时,抽取个零件作为一个样本,在车床工作3小时后,再抽取
个零件作为第二个样本,测定每个零件距离标准的偏差
, 其具体数值见表1:
偏差 | 频数 | 偏差 | 频数 | ||
样本1 | 样本2 | 样本1 | 样本2 | ||
[-15, -10) | 10 | 0 | [10, 15) | 8 | 15 |
[-10, -5) | 27 | 7 | [15, 20) | 1 | 1 |
[-5, -0) | 43 | 17 | [20, 25) | 0 | 1 |
[0, 5) | 38 | 30 | |||
[5, 10) | 23 | 29 |
记第一个样本来自的总体分布函数为,第二个样本来自的总体分布函数为
,则考虑假设检验问题为:
把计算检验统计量的步骤列入表2:
表2 计算检验统计量的步骤表
组上限 | 频数 | 累积频数 | |||||
-10 | 10 | 0 | 10 | 0 | 0.067 | 0.000 | 0.067 |
-5 | 27 | 7 | 37 | 7 | 0.247 | 0.070 | 0.177 |
0 | 43 | 17 | 80 | 24 | 0.533 | 0.240 | 0.293 |
5 | 38 | 30 | 118 | 54 | 0.787 | 0.540 | 0.247 |
10 | 23 | 29 | 141 | 83 | 0.940 | 0.830 | 0.110 |
15 | 8 | 15 | 149 | 98 | 0.993 | 0.980 | 0.013 |
20 | 1 | 1 | 150 | 99 | 1.000 | 0.990 | 0.010 |
25 | 0 | 1 | 150 | 100 | 1.000 | 1.000 | 0.000 |
由表2可以算出,当
时,查表可得
。由于
,因此拒绝原假设,即两个样本不是来自于同一个总体分布函数。这意味着在车床上加工零件时,不能忽视时间延续的影响。