过拟合

首页 . 理学 . 统计学 . 数理统计 . 统计学习

/overfitting/

条目作者钟威

钟威

最后更新 2024-12-06

浏览 369次

最后更新 2024-12-06

浏览 369次

0 意见反馈条目引用

在模型拟合数据的过程中，统计模型使用的参数过多，从而导致模型对观测数据过度拟合，以至于在训练数据上拟合表现较好，但是该模型预测能力通常较差的现象。

英文名称: overfitting

所属学科: 统计学

过拟合与欠拟合是统计学中的一组相反现象。欠拟合是由于统计模型使用的参数过少，以至于得到的模型难以拟合观测数据的现象。过拟合是在统计模型中，由于使用的参数过多而导致模型对观测数据过度拟合，以至于在训练数据上拟合表现较好，但是在训练数据外的数据集上却不能很好地拟合数据。

具体而言，以回归分析为例，更直观地理解过拟合现象。首先，产生一列随机数 $x$ ，且 $x\in [0,1]$ 。其后，通过函数变换 $\sin(2\pi x)$ ，并加上随机扰动项 $\varepsilon$ 生成一组 $y$ 。希望通过一系列统计回归方法捕捉到 $y$ 与 $x$ 之间的关系。利用多项式回归来拟合数据，即采用了9个变量 $(x,x^2,\cdots,x^9)$ 进行拟合，表达式为：

$y=\omega_0+\omega_1x+\omega_2x^2+\cdots + \omega_9x^9+\varepsilon$

其结果见图，红色的点代表观测值，黑色曲线为真实曲线，蓝色曲线为拟合曲线。蓝色曲线很好地拟合了红色观测点，每个点对应的残差都非常小。但是曲线本身很大程度上偏离了真实曲线，这种现象叫作过拟合（overfitting）。因此，过拟合的泛化能力较差，即预测能力很差。过拟合是训练样本与训练参数的比例过小导致的。因此，可以通过增加样本量或者减少训练参数来解决过拟合问题，也可以采用正则化方法解决过拟合问题。例如，基于L1正则化的LASSO以及基于L2正则化的岭回归等都是通过对变量的系数进行压缩，来解决过拟合问题。

过拟合曲线示例图

条目图册

扩展阅读

李航．统计学习方法．北京：清华大学出版社，2012．
HASTIE T，TIBSHIRANI R，FRIEDMAN J．The Elements of Statistical Learning：Data Mining, Inference, and Prediction．New York：Springer，2009．

过拟合

钟威

条目图册

扩展阅读

阅读历史

感谢您的反馈

过拟合

钟威

条目图册

扩展阅读

精选发现

相关条目

阅读历史

感谢您的反馈