许多统计量可看作是M估计。对一族用参数化的概率密度函数
,
的极大似然估计(可以是向量值)的计算是通过极大化似然函数得到。这个估计是
或等价于:
。注意到极大似然估计的表现往往严重依赖所假设的数据分布类型,特别当数据不是来自假设分布时,极大似然估计可能不是有效的,尤其是在数据存在异常值时。
P.J.胡贝尔(P.J.Huber,1964)提出了广义极大似然估计,又称估计。它通过极小化
而得到,即
,式中
为满足某些性质的函数。这里“
”指的是“极大似然型”,可见极大似然估计是
估计的特殊情况。如果
为标准正态密度函数,则对应的
,那么所得M-估计就是常见的最小二乘估计;如果
为双指数密度,可以得到
,即为最小一乘估计。假设
的导数
,那么M-估计可由
得到。
Huber函数则是一个简单的-函数的例子:
式中和
分别对应
和
。 因此,当
-函数取Huber函数时估计处在均值和中位数之间,而对应的
为:
式中的有界性保证了估计方法是稳健的。定义权重函数
,对于Huber函数来说,当
时
;而当
时,
。此时最小化
-函数的求和的过程可以看作求解
。
从而,
。
式中。这就说明位置参数的M估计可以看作观测值的加权平均。
函数的选取原则:当数据来自假定的分布时,估计有令人满意的表现(关于偏差和效率);并且当数据来自某种意义上与假设分布相近时,估计的表现不是很糟糕,即所求估计具有统计稳健性。求
的极小化解,有时极小化可以直接进行。但一般是关于
求导,然后再求解导数方程的根。如果方程不存在显式解需要进行迭代计算。这时可以应用标准的函数优化算法,如牛顿-拉弗森(Newton-Raphson)算法。但对于一维问题优先使用再加权(reweighting)算法,位置参数估计迭代的初始值可用中位数,刻度参数估计迭代的初始点可用绝对中位离差(MAD)估计。
估计通常具有渐近正态性,从而可以使用沃尔德(Wald)型的方法来构造置信区间和进行假设检验。
估计可以用在一元和多元环境下来计算位置参数和刻度参数的估计。
对于线形模型中回归参数
的
估计,通常有
,当
时,
称为
的最小二乘估计;当
时,
称为
的最小一乘估计。回归参数
和刻度参数
的
估计通常有如下的
型估计:
。
式中为自由度为
的
分布密度函数,
通常取为
。