我希望以下摘录能够深入了解我的问题。这些来自这里。
然后学习逐渐减慢。最后,在 epoch 280 左右,分类准确度几乎停止提高。后面的 epoch 仅在 epoch 280 的准确度值附近看到小的随机波动。与之前的图表对比,与训练数据相关的成本继续平稳下降。如果我们只看这个成本,我们的模型似乎仍在变得“更好”。但测试准确度结果表明,这种提高是一种假象。就像费米不喜欢的模型一样,我们的网络在 epoch 280 之后学到的东西不再推广到测试数据。所以这不是有用的学习。我们说网络在 280 纪元之后过度拟合或过度训练。
我们正在训练一个神经网络,并且成本(在训练数据上)一直下降到 400 纪元,但在 280 纪元之后分类精度变得静态(除了一些随机波动),因此我们得出结论,模型在 280 纪元后对训练数据过度拟合。
我们可以看到测试数据的成本在 epoch 15 左右之前有所提高,但在那之后它实际上开始变得更糟,尽管训练数据的成本继续变得更好。这是我们的模型过度拟合的另一个迹象。然而,它提出了一个难题,即我们是否应该将 epoch 15 或 epoch 280 视为过度拟合将主导学习的点?从实际的角度来看,我们真正关心的是提高测试数据的分类准确率,而测试数据的成本只不过是分类准确率的一个代理。因此,将 epoch 280 视为在我们的神经网络中过度拟合主导学习的点是最有意义的。
与之前的测试数据分类准确性与训练成本相比,我们现在将测试数据的成本与训练成本相比较。
然后这本书继续解释为什么 280 是过度拟合开始的正确时期。这就是我的问题。我无法解决这个问题。
我们要求模型最小化成本,因此成本是它用来衡量其自身正确分类强度的指标。如果我们认为 280 是开始过度拟合的正确时期,我们是否没有以某种方式创建一个有偏差的模型,该模型虽然是特定测试数据的更好分类器,但仍然以低置信度做出决策,因此更容易偏离从测试数据上显示的结果?