是否有过度拟合的数学或算法定义?
通常提供的定义是经典的二维点图,一条线穿过每个点,并且验证损失曲线突然上升。
但是有数学上严格的定义吗?
是否有过度拟合的数学或算法定义?
通常提供的定义是经典的二维点图,一条线穿过每个点,并且验证损失曲线突然上升。
但是有数学上严格的定义吗?
是的,有一个(稍微更)严格的定义:
给定具有一组参数的模型,如果经过一定数量的训练步骤后,训练误差继续减小而样本外(测试)误差开始增加,则可以说该模型过度拟合数据。
在这个例子中,样本外(测试/验证)误差首先与训练误差同步减少,然后在第 90 个 epoch 左右开始增加,即过度拟合开始时
另一种看待它的方式是根据偏差和方差。模型的样本外误差可以分解为两个部分:
当偏差低但方差高时会发生过度拟合。对于数据集,其中真实(未知)模型是:
-是数据集中的不可约噪声,其中和,
估计的模型是:
,
那么测试错误(对于测试数据点)可以写成:
偏差^2 = E[f( x_t 和
(严格来说,这种分解适用于回归情况,但类似的分解适用于任何损失函数,即也适用于分类情况)。
上述两个定义都与模型复杂度相关(根据模型中参数的数量来衡量):模型的复杂度越高,发生过拟合的可能性就越大。
有关该主题的严格数学处理, 请参阅《统计学习要素》的第 7 章。