关于参数估计,统计学界主要分为频率主义和贝叶斯两个学派:在频率主义学派的观点中,参数是客观存在的固定数值,因而可通过优化似然函数、后验概率函数直接对参数进行估计,对应的方法为最大似然估计和最大后验概率估计;而在贝叶斯学派的观点中,参数是未观测到的随机变量,它服从一定的分布,因而需要先对待估计参数进行先验分布假设,然后基于观测到的数据来计算参数的后验分布,对应方法为贝叶斯参数估计。
最大似然估计(Maximum Likelihood Estimate,MLE),又称为极大似然估计,指在基于采样独立同分布的假设下,通过已知的样本观测值,推导出使观测结果出现概率最大的模型参数值
。即:
以离散分布为例,从总体中取样本容量为的样本,记为
,其概率分布为
,则对于观测值为
,最大似然估计一般包含以下步骤:
①写出似然函数:
,
②对似然函数取对数,并整理:
,
③通过求解令上式导数为0的极值点,即得到未知参数的最大似然估计值:
。
最大似然估计方法是参数估计的常用方法之一,最早在1821年由德国数学家C.F.高斯 提出,而后在1922年的论文《On the mathematical foundations of theoretical statistics, reprinted in Contributions to Mathematical Statistics》中,英国的统计学家R.A.费希尔进一步将该方法的各种性质进行了论证。最大似然估计法的优势主要包括计算简单、不需要关注先验知识等优势等,在机器学习中的应用广泛。