模型的偏差是指预测值(估计值)的期望与真实值之间的差距。偏差越大,预测值越偏离真实值。模型的方差是指预测值的变化范围或离散程度。方差越大,预测值的分布越分散。通常,在偏差与方差之间,有这样一种规律:如果模型过于简单而无法捕捉变量之间的相互关系,则其具有较大的偏差。这种现象叫作欠拟合。如果模型过于复杂,就会过于贴近训练数据,则其具有较大的方差。这种现象叫作过拟合。在进行模型拟合时,应该适当地调整模型的复杂度,在模型的偏差与方差之间寻求一种平衡,来提高模型的泛化能力。
具体地,在给定数据集和数据标签
的情况下,训练后模型
所产生的误差可以分解为:
…(1)
式中为偏差;
为方差;
为受噪声影响模型通过学习所能够达到的误差下限。
机器学习算法主要是通过降低偏差或方差来减小最终优化后模型的误差,以集成学习为例,Boosting算法是通过多个模型加权线性组合来降低偏差的集成学习方法,即:
…(2)
式中为多个基模型;
为每个基模型的权重。由于每次累加的新模型
都将纠正前
个模型组合
的偏差,因此可以缓解模型
的欠拟合问题。
Bagging算法是通过多个模型平均来降低方差的方法,即。假设每个基模型的方差为
,则多个模型平均后方差为
,因此可以缓解模型
的过拟合问题。