我了解到可以通过绘制训练误差和测试误差与时期的关系来检测过度拟合。像:

我一直在阅读这篇博文,他们说神经网络 net5 过拟合,他们提供了这个数字:

这对我来说很奇怪,因为 net5 的验证和训练错误一直在下降(但速度很慢)。
为什么他们会声称它过度拟合?是因为验证错误停滞不前吗?
我了解到可以通过绘制训练误差和测试误差与时期的关系来检测过度拟合。像:

我一直在阅读这篇博文,他们说神经网络 net5 过拟合,他们提供了这个数字:

这对我来说很奇怪,因为 net5 的验证和训练错误一直在下降(但速度很慢)。
为什么他们会声称它过度拟合?是因为验证错误停滞不前吗?
过度拟合不仅发生在测试误差随着迭代而增加的情况下。当测试集的性能远低于训练集的性能时,我们说存在过拟合(因为模型对所见数据的拟合度太高,并且不能很好地泛化)。
在您的第二个图中,我们可以看到测试集上的性能几乎比训练集上的性能低 10 倍,这可以被认为是过度拟合。
几乎总是模型在训练集上比在测试集上表现更好,因为模型已经看到了数据。然而,一个好的模型应该能够很好地概括看不见的数据,然后缩小训练集和测试集的性能差距。
例如,您的第一个过度拟合示例可以通过提前停止来解决。您的第二个示例可以通过正则化、破坏输入等来解决。