统计量是对样本数据进行的压缩加工,它是样本数据的函数。在样本加工为统计量的过程中,样本中所含的信息可能有所损失,若在将样本加工为统计量时,信息毫无损失,则称此统计量为充分统计量。比如,在正态分布中, 我们可以用两个充分统计量(样本均值和样本方差)来描述整个数据分布。充分统计量的概念由英国统计学家R.A.费希尔于1922年首先提出,它是在压缩过程中对样本信息进行的无损压缩,即保留样本中关于未知参数的全部有用信息。而一个分布族的充分统计量具有不唯一性,为了取舍,需要比较充分统计量“压缩数据”性能方面的好坏。
由可测函数的性质,比较两个充分统计量在压缩数据功能上的大小,可以观察其函数关系来衡量,假如存在一个充分统计量,它是任意一个其他充分统计量的函数,那么它是“压缩数据”性能最好的统计量,称它为最小充分统计量。换言之,最小充分统计量是压缩数据功能最强的充分统计量。
最小充分统计量不一定存在;若样本空间为欧氏空间,则最小充分统计量必然存在。
定理:设是样本
的分布密度(或质量)函数,如果存在函数
使得对任意两个样本点
和
,比值
是
的常函数当且仅当
,则
是
的最小充分统计量。
例子:设是从正态总体
中抽取的简单随机样本,其中
和
未知,
和
分别为样本点
和
的样本均值与样本方差。分布密度值之比为:
显然,该比值是和
的常函数当且仅当
且
。于是由上述定理可知:
是
的最小充分统计量。