过拟合与欠拟合是统计学中的一组相反现象。欠拟合是由于统计模型使用的参数过少,以至于得到的模型难以拟合观测数据的现象。过拟合是在统计模型中,由于使用的参数过多而导致模型对观测数据过度拟合,以至于在训练数据上拟合表现较好,但是在训练数据外的数据集上却不能很好地拟合数据。
具体而言,以回归分析为例,更直观地理解过拟合现象。首先,产生一列随机数,且
。其后,通过函数变换
,并加上随机扰动项
生成一组
。希望通过一系列统计回归方法捕捉到
与
之间的关系。利用多项式回归来拟合数据,即采用了9个变量
进行拟合,表达式为:
其结果见图,红色的点代表观测值,黑色曲线为真实曲线,蓝色曲线为拟合曲线。蓝色曲线很好地拟合了红色观测点,每个点对应的残差都非常小。但是曲线本身很大程度上偏离了真实曲线,这种现象叫作过拟合(overfitting)。因此,过拟合的泛化能力较差,即预测能力很差。过拟合是训练样本与训练参数的比例过小导致的。因此,可以通过增加样本量或者减少训练参数来解决过拟合问题,也可以采用正则化方法解决过拟合问题。例如,基于L1正则化的LASSO以及基于L2正则化的岭回归等都是通过对变量的系数进行压缩,来解决过拟合问题。