我正在图像数据集上训练两个 ResNet 模型。第一个已经用随机权重训练,而另一个之前已经在 ImageNet 上进行了预训练。
第二个模型在训练损失为 1.47e-3 的 12 个 epoch 后开始过拟合。另一方面,第一个模型在训练损失为 1.17e-3(因此更低)的 70 个 epoch 后没有表现出明显的过拟合行为。
有悖论吗?我该怎么解释呢?
我正在图像数据集上训练两个 ResNet 模型。第一个已经用随机权重训练,而另一个之前已经在 ImageNet 上进行了预训练。
第二个模型在训练损失为 1.47e-3 的 12 个 epoch 后开始过拟合。另一方面,第一个模型在训练损失为 1.17e-3(因此更低)的 70 个 epoch 后没有表现出明显的过拟合行为。
有悖论吗?我该怎么解释呢?
值得期待。
为什么?Imagenet one 会更快地过度拟合,因为它接受了超过 20k 类的训练,不仅如此,它还学习了它需要学习的所有细微差别,并且更新新数据集的权重需要更短的时间(开始过拟合更快)。
另一方面,从头开始训练 NN 需要很多时间。