我目前正在 Keras 上实现神经网络架构。我想优化训练时间,我正在考虑使用替代优化器,例如带有 Nesterov Momentum 和 Adam 的 SGD。
我已经阅读了有关每种方法的优缺点的几篇文章(带有 Nesterov 动量的 SGD:对学习率的初始值非常敏感,并且需要学习率调度——我不确定这意味着什么......),但我仍然不知道它们如何比较,以及如何在它们之间进行选择。
有人可以帮我澄清这一点吗?谢谢!
我目前正在 Keras 上实现神经网络架构。我想优化训练时间,我正在考虑使用替代优化器,例如带有 Nesterov Momentum 和 Adam 的 SGD。
我已经阅读了有关每种方法的优缺点的几篇文章(带有 Nesterov 动量的 SGD:对学习率的初始值非常敏感,并且需要学习率调度——我不确定这意味着什么......),但我仍然不知道它们如何比较,以及如何在它们之间进行选择。
有人可以帮我澄清这一点吗?谢谢!
一般来说,没有明确的结果表明一种学习算法比另一种“更好”。普遍的看法(需要用一磅盐来接受)是,与 SGD 及其变体相比,Adam 在第一次尝试时需要更少的实验来获得收敛。但是,这高度依赖数据集/模型。最近,一些团体声称,尽管训练速度更快,但使用 Adam 训练的模型在验证集或测试集上的泛化效果更差。有关更多信息,请参阅https://arxiv.org/abs/1712.07628。