剖析和理解 Adam 优化的公式

数据挖掘 优化 梯度下降 势头
2022-02-18 22:10:18

Adam 的优化具有以下参数更新规则:

θt+1=θtαmtvt+ϵ
在哪里
mt is first moment of gradients and vt is second moment of gradient

关于上述公式,我有以下问题:

  • 梯度的第一和第二时刻究竟是什么?第一个和第二个时刻公式背后的直觉是什么?

  • 我理解 SGD 与动量和 SGD 与 RMSprop,但在这里我们使用这两者。再一次,我不明白在第一时刻用第二时刻的平方根潜水背后的直觉

在来这里之前,我在网上查阅并阅读了各种文章,因为没有一篇文章有​​助于提供直觉。我也尝试阅读原始论文,但我发现很难理解。

0个回答
没有发现任何回复~