阅读亚当的论文,我需要一些澄清。
它指出 SGD 优化以相同的学习率更新参数(即在整个训练过程中不会改变)。他们说 Adam 是不同的,因为学习率是可变的(自适应的),并且可以在训练期间改变。
这是为什么 Adam 的表现(在大多数情况下)优于 SGD 的主要区别吗?此外,它说它在计算上更便宜,怎么能说它看起来比 SGD 更复杂呢?
我希望我的问题很清楚!
阅读亚当的论文,我需要一些澄清。
它指出 SGD 优化以相同的学习率更新参数(即在整个训练过程中不会改变)。他们说 Adam 是不同的,因为学习率是可变的(自适应的),并且可以在训练期间改变。
这是为什么 Adam 的表现(在大多数情况下)优于 SGD 的主要区别吗?此外,它说它在计算上更便宜,怎么能说它看起来比 SGD 更复杂呢?
我希望我的问题很清楚!
在我见过的许多应用中(例如 GAN)设定为, 所以,即更新规则的分子与SGD中的相同。这留下了两个主要区别,都与第二时刻的 MA 有关:
在概率和统计中,矩是指形式的非中心表达式 ,移动平均线估计,因此得名。归一化允许梯度调整,因此,更好的参数更新