SGD 与 Adam 优化说明

数据挖掘 神经网络 优化
2021-09-17 21:14:19

阅读亚当的论文,我需要一些澄清。

它指出 SGD 优化以相同的学习率更新参数(即在整个训练过程中不会改变)。他们说 Adam 是不同的,因为学习率是可变的(自适应的),并且可以在训练期间改变。

这是为什么 Adam 的表现(在大多数情况下)优于 SGD 的主要区别吗?此外,它说它在计算上更便宜,怎么能说它看起来比 SGD 更复杂呢?

我希望我的问题很清楚!

1个回答

在我见过的许多应用中(例如 GAN)β1设定为0, 所以m1=g1,即更新规则的分子与SGD中的相同。这留下了两个主要区别,都与第二时刻的 MA 有关:

  1. vt: 二阶矩的原始 MA 用作梯度归一化器,将梯度除以梯度平方的移动平均值的平方根
  2. 1β2. 为了减少偏见,vt 也被划分为 1β2t. 这遵循梯度平方期望的推导,E[(Ewt)2]在文章的第 3 节。本质上Evt=(1β2t)E[(Ewt)2]+ε,因此表达。在培训初期,MA 接近0, 并除以 1β2 帮助远离它。

在概率和统计中,矩是指形式的非中心表达式 EXk,移动平均线估计,因此得名。归一化允许梯度调整,因此,更好的参数更新