在最小化训练神经网络的成本函数时,自适应矩估计 (Adam)优化器似乎总是工作得更好(更快、更可靠地达到全局最小值)。
为什么不总是使用亚当?为什么还要费心使用 RMSProp 或动量优化器?
这是一篇博客文章,回顾了一篇声称 SGD 是比 ADAM 更好的通用适配器的文章。
使用多个方法(集成)通常是有价值的,因为每种方法都有一个弱点。
您还应该看看这篇比较不同梯度下降优化器的帖子。正如您在下面看到的,Adam 显然不是某些任务的最佳优化器,因为许多任务收敛得更好。