Adam 的优化具有以下参数更新规则:
在哪里
关于上述公式,我有以下问题:
梯度的第一和第二时刻究竟是什么?第一个和第二个时刻公式背后的直觉是什么?
我理解 SGD 与动量和 SGD 与 RMSprop,但在这里我们使用这两者。再一次,我不明白在第一时刻用第二时刻的平方根潜水背后的直觉
在来这里之前,我在网上查阅并阅读了各种文章,因为没有一篇文章有助于提供直觉。我也尝试阅读原始论文,但我发现很难理解。
Adam 的优化具有以下参数更新规则:
在哪里
关于上述公式,我有以下问题:
梯度的第一和第二时刻究竟是什么?第一个和第二个时刻公式背后的直觉是什么?
我理解 SGD 与动量和 SGD 与 RMSprop,但在这里我们使用这两者。再一次,我不明白在第一时刻用第二时刻的平方根潜水背后的直觉
在来这里之前,我在网上查阅并阅读了各种文章,因为没有一篇文章有助于提供直觉。我也尝试阅读原始论文,但我发现很难理解。