机器算法验证 - 如何在带有 Nesterov 动量的 SGD 和 Adam 之间进行选择？ - 吾爱随笔录

如何在带有 Nesterov 动量的 SGD 和 Adam 之间进行选择？

机器算法验证神经网络随机梯度下降亚当涅斯捷罗夫

2022-03-07 06:22:12

我目前正在 Keras 上实现神经网络架构。我想优化训练时间，我正在考虑使用替代优化器，例如带有 Nesterov Momentum 和 Adam 的 SGD。

我已经阅读了有关每种方法的优缺点的几篇文章（带有 Nesterov 动量的 SGD：对学习率的初始值非常敏感，并且需要学习率调度——我不确定这意味着什么......），但我仍然不知道它们如何比较，以及如何在它们之间进行选择。

有人可以帮我澄清这一点吗？谢谢！

1个回答

一般来说，没有明确的结果表明一种学习算法比另一种“更好”。普遍的看法（需要用一磅盐来接受）是，与 SGD 及其变体相比，Adam 在第一次尝试时需要更少的实验来获得收敛。但是，这高度依赖数据集/模型。最近，一些团体声称，尽管训练速度更快，但使用 Adam 训练的模型在验证集或测试集上的泛化效果更差。有关更多信息，请参阅https://arxiv.org/abs/1712.07628。

其它你可能感兴趣的问题

上一篇对于哈密顿蒙特卡罗，为什么否定动量变量会导致对称提议？下一篇二次加权 kappa