Adam 是一种流行的自适应学习率优化策略方法。我专注于使用完全卷积网络的图像分割项目。所有权重均由截断的正态分布初始化。最初,我使用了 Adam 优化器,并在训练集和测试集上以合理的精度(比如 0.8)获得了一些损失收敛。但是当我尝试使用 SGD 优化器时,损失似乎收敛了,但准确度几乎为零。所以我的问题是,当我们采用不同的优化器时,为了成功的网络训练,我们需要改变什么?权重初始化?
将SGD优化器改为Adam优化器时我们应该怎么做?
机器算法验证
神经网络
优化
卷积神经网络
随机梯度下降
亚当
2022-04-14 14:32:50
1个回答
以我的经验,改变优化器不是简单的换一个。相反,更改优化器还会与神经网络中的其他几个配置选择交互。
优化器与初始化方案交互,因此可能需要更改。
可能需要更改学习率。
学习率计划可能需要调整。
在某些情况下,具有动量的 SGD 可以比 Adam 有很大的改进。请参阅:Ashia C. Wilson、Rebecca Roelofs、Mitchell Stern、Nathan Srebro、Benjamin Recht 的“机器学习中自适应梯度方法的边际价值”
自适应优化方法使用从迭代历史构建的度量执行局部优化,在训练深度神经网络中变得越来越流行。示例包括 AdaGrad、RMSProp 和 Adam。我们表明,对于简单的过度参数化问题,自适应方法通常会找到与梯度下降 (GD) 或随机梯度下降 (SGD) 截然不同的解决方案。我们构建了一个说明性的二元分类问题,其中数据是线性可分的,GD 和 SGD 实现了零测试误差,而 AdaGrad、Adam 和 RMSProp 实现了任意接近一半的测试误差。我们还研究了自适应方法在几种最先进的深度学习模型上的经验泛化能力。我们观察到,通过自适应方法找到的解决方案的泛化能力比 SGD 更差(通常明显更差),即使这些解决方案具有更好的训练性能。这些结果表明,从业者应该重新考虑使用自适应方法来训练神经网络。
其它你可能感兴趣的问题