我一直在 GTRSB 数据集上使用 DNN 训练 Spatial Transformer 网络。我最初使用带有动量的 SGF,并且能够达到很好的准确性。
为了进一步改进和测试,我决定将优化器更改为 Adam,但奇怪的是,经过相当多的 epoch 后,我没有看到训练或验证准确性有任何提高。
亚当是否可能不太适合这个数据集?(或者一般来说,优化器是否可以在一个数据集上工作但在其他数据集上工作正常?)
编辑:我尝试在学习率较低的较小数据集上运行 Adam(最初是 0.01,现在我将其设置为 0.001)。在较小的数据集上,它应该会提高准确性,但在较大的数据集上,问题仍然存在。
编辑 2:进一步将学习率降低到 0.0001 甚至使 Adam 可以处理更大的数据集。
谢谢