非参数检验作为一个重要的统计工具,其发展历史可以追溯到20世纪50年代。当时,一些统计学家开始关注非参数方法的应用,并逐步发展出了多种不同的非参数检验方法。这些方法自20世纪60年代开始在社会科学、医学、工程等领域得到了广泛的应用。在20世纪70年代,一些研究表明,非参数方法在某些情况下比参数方法更为优越。例如,当数据不符合正态分布假设时,非参数方法仍然可以获得较好的结果。此后,非参数检验在各个领域的应用逐渐增多,并成为了多元统计分析的重要工具之一。随着计算机技术的发展,非参数检验的计算复杂度逐渐降低,使得其实施更加便捷。同时,随着人们对数据结构和分布形态的认识不断深入,非参数检验的应用范围也不断扩大。非参数检验已经成为了统计分析的基本工具之一,在各个领域都有广泛的应用。
非参数检验的基本原理是利用样本数据之间的大小比较及大小顺序,对两个或多个样本所属总体的分布是否相同进行检验,而不对总体分布的参数如平均数、标准差等进行统计推断。它主要依赖于样本数据本身的特性,而不是对总体分布的参数进行假设检验。非参数检验的性质包括以下6点:①非参数检验对总体分布的假设较少,适用于分布类型未知或知之甚少的情况;②非参数检验不需要对总体分布的参数进行假设检验,因此避免了因参数假设不合理而导致的推断错误;③非参数检验通常比参数检验更为敏感,可以更好地发现样本数据中的异常值或极端值;④非参数检验可以处理多种类型的数据结构,如定序数据、定类数据等,而不仅仅是数值型数据;⑤非参数检验在实际应用中较为灵活,可以结合具体问题进行选择和调整。⑥非参数检验很适合小样本,且方法简单。非参数检验主要的不足是未能充分利用资料的全部信息。
选择非参数检验的情况包括如下3种:①总体分布不易确定(即不清楚数据分布是否为正态分布)。②分布呈非正态分布并且没有适当的数据转换方法。③等级性数据。
非参数检验方法包括:①奈曼-皮尔逊拟合优度检验。用于检验样本数据是否符合某种分布。奈曼-皮尔逊拟合优度检验是非常重要的非参数检验方法,既可以用于检验数据的分布特性,又可以检验不同组数据之间的分布关系(是否是同一分布)。②科尔莫戈罗夫-斯米尔诺夫检验。和奈曼-皮尔逊检验一样属于拟合优度检验方法。但是科尔莫戈罗夫-斯米尔诺夫检验无需对要检验的数据分组,且使用经验累积分布函数(ECDF)来定义统计量,可以用于任何分布的检验。但科尔莫戈罗夫-斯米尔诺夫只适用于一元分布的情况。因此,适用面与奈曼-皮尔逊检验范围要小。③独立性检验,包括皮尔逊卡方检验和费希尔精确独立性检验。通常用于检验数据的分布和假设影响因素的关系。④符号检验和秩和检验,检验样本与总体的情况,或样本总体间的差异。非参数检验很适合小样本,且方法简单。不足是未能充分利用资料的全部信息。⑤安德森-达令检验。用于检验给定的数据样本是否来自给定的概率分布。在其基本形式中,检验假定在被测试的分布中没有需要估计的参数,在这种情况下,检验及其关键值集合是无分布设定的。该检验常用于检验分布族的情况,在这种情况下,需要估计分布族的参数,并且在调整检验统计量或一些关键值时必须考虑这些参数。当应用于检验正态分布是否合理地描述了一组数据时,它是检验大多数偏离正态分布的重要统计工具。⑥凯珀检验,在统计学中,该检验用于检验给定的分布或分布族是否与来自数据样本提供的证据相矛盾。以荷兰数学家N.凯珀[注]的名字命名。该检验多用于检验在测试年或周或日的时间的循环变化,广泛用于检验不同分布的拟合效果和差异。⑦麦克尼马尔检验。对成对的名义数据进行的统计检验。被应用于具有两个特征的2×2列联表,以探究行和列的边际频率是否相等(即是否存在“边际同质性”)。由美国统计学家Q.麦克尼马尔[注]于1947年提出。