首页 . 理学 . 统计学 . 数理统计 . 统计学习

过拟合

/overfitting/
条目作者钟威

钟威

最后更新 2024-12-06
浏览 369
最后更新 2024-12-06
浏览 369
0 意见反馈 条目引用

在模型拟合数据的过程中,统计模型使用的参数过多,从而导致模型对观测数据过度拟合,以至于在训练数据上拟合表现较好,但是该模型预测能力通常较差的现象。

英文名称
overfitting
所属学科
统计学

过拟合与欠拟合是统计学中的一组相反现象。欠拟合是由于统计模型使用的参数过少,以至于得到的模型难以拟合观测数据的现象。过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数据过度拟合,以至于在训练数据上拟合表现较好,但是在训练数据外的数据集上却不能很好地拟合数据。

具体而言,以回归分析为例,更直观地理解过拟合现象。首先,产生一列随机数,且。其后,通过函数变换,并加上随机扰动项生成一组。希望通过一系列统计回归方法捕捉到之间的关系。利用多项式回归来拟合数据,即采用了9个变量进行拟合,表达式为:

其结果见图,红色的点代表观测值,黑色曲线为真实曲线,蓝色曲线为拟合曲线。蓝色曲线很好地拟合了红色观测点,每个点对应的残差都非常小。但是曲线本身很大程度上偏离了真实曲线,这种现象叫作过拟合(overfitting)。因此,过拟合的泛化能力较差,即预测能力很差。过拟合是训练样本与训练参数的比例过小导致的。因此,可以通过增加样本量或者减少训练参数来解决过拟合问题,也可以采用正则化方法解决过拟合问题。例如,基于L1正则化的LASSO以及基于L2正则化的岭回归等都是通过对变量的系数进行压缩,来解决过拟合问题。

过拟合曲线示例图过拟合曲线示例图

  • 李航.统计学习方法.北京:清华大学出版社,2012.
  • HASTIE T,TIBSHIRANI R,FRIEDMAN J.The Elements of Statistical Learning:Data Mining, Inference, and Prediction.New York:Springer,2009.

相关条目

阅读历史

    意见反馈

    提 交

    感谢您的反馈

    我们会尽快处理您的反馈!
    您可以进入个人中心的反馈栏目查看反馈详情。
    谢谢!