例如,您使用像 Adam 这样的自适应优化器在数据集 1 上进行训练。在尝试转移到数据集 2 时,是否应该从数据集 1 的训练结束时重新加载学习计划等?为什么或者为什么不?
您是否应该重新加载优化器以进行迁移学习?
人工智能
神经网络
深度学习
迁移学习
2021-10-30 16:59:02
2个回答
在进行迁移学习时,对“继承”参数和“新”参数有不同的更新策略是有意义的。“继承”参数在 dataset1 上进行了预训练,它们通常构成深度模型的前端。“新”参数是从头开始训练的,它们通常会在 dataset2 上产生所需的预测。重新启动“新”参数的学习计划是明智的。但是,大多数情况下,我们会避免对“继承”参数这样做,以避免灾难性的遗忘。
Adam 随着时间的推移降低学习率。当您更改为新的训练数据时,您想要重置学习率。但 Adam 可能不是第二轮训练的最佳选择——它可以对继承的权重做出很大的改变,从而阻止先前学习的迁移。在第二轮中切换到简单的 SGD 可能会很好。