机器算法验证 - 亚当收敛证明的错误是什么 - 吾爱随笔录

Sashank J. Reddi 等。al 在他们的论文“关于亚当和超越的收敛”中说，亚当在原始论文中的收敛证明是错误的。不仅如此，他们还指出价值

$Г_{t + 1} = \frac{\sqrt{V_{t+1}}}{a_{t+1}} - \frac{\sqrt{V_t}}{a_t}$ ，在哪里 $V$ 是平方梯度的移动平均值，并且 $a$ 是学习率，

被假定为正数，然而，它只适用于 SGD 和 AdaGrad，而对于 RMSProp 和 Adam 可以是任何东西。我找不到在亚当的起源收敛证明中假定和使用这个属性的地方，有人可以向我指出吗？