什么时候应该使用学习率调度而不是自适应学习率优化算法?

数据挖掘 深度学习 学习率
2021-10-03 05:17:07

为了适当地收敛到最优,已经发明了不同的使用自适应学习率的算法,例如 AdaGrad、Adam 和 RMSProp。另一方面,还有功率调度、指数调度等学习率调度器。

但是,我不明白您应该在哪种情况下使用其中一种。我觉得使用 Adam 等自适应学习率优化算法比使用学习率调度器更简单、更容易实现。

那么如何才能正确的分开使用呢,就看什么样的问题了呢?

1个回答

我不确定其他领域,但最近在深度神经网络训练领域有这个 arXiv 提交,机器学习中自适应梯度方法的边际价值

自适应优化方法使用从迭代历史构建的度量执行局部优化,在训练深度神经网络中变得越来越流行。示例包括 AdaGrad、RMSProp 和 Adam。我们表明,对于简单的过度参数化问题,自适应方法通常会找到与梯度下降 (GD) 或随机梯度下降 (SGD) 截然不同的解决方案。我们构建了一个说明性的二元分类问题,其中数据是线性可分的,GD 和 SGD 实现了零测试误差,而 AdaGrad、Adam 和 RMSProp 实现了任意接近一半的测试误差。我们还研究了自适应方法在几种最先进的深度学习模型上的经验泛化能力。我们观察到,通过自适应方法找到的解决方案的泛化能力比 SGD 更差(通常明显更差),即使这些解决方案具有更好的训练性能。这些结果表明,从业者应该重新考虑使用自适应方法来训练神经网络。