我正在使用具有 RMSProp、Adam 和 SGD 的网络对 EMNIST 验证集进行实验。我使用 SGD(学习率为 0.1)和 dropout(0.1 dropout prob)以及 L2 正则化(1e-05 惩罚)实现了 87% 的准确率。当使用 RMSProp 和 Adam 以及初始学习率 0.001 测试相同的精确配置时,我实现了 85% 的准确度和明显不太平滑的训练曲线。我不知道如何解释这种行为。训练曲线缺乏平滑度以及获得的准确度较低和错误率较高的原因可能是什么?
RMSProp 和 Adam vs SGD
机器算法验证
机器学习
优化
随机梯度下降
亚当
2022-02-03 12:33:49
1个回答
在研究了几篇在线文章和 Keras 文档后,建议将 RMSProp 优化器推荐用于循环神经网络。https://github.com/keras-team/keras/blob/master/keras/optimizers.py#L209
随机梯度下降似乎利用它的学习率和每批之间的动量来优化模型的权重,在我的例子中,损失函数的信息是“categorical_crossentropy”。
我建议http://ruder.io/optimizing-gradient-descent/index.html获取有关优化算法的更多信息。
其它你可能感兴趣的问题