Sashank J. Reddi 等。al 在他们的论文“关于亚当和超越的收敛”中说,亚当在原始论文中的收敛证明是错误的。不仅如此,他们还指出价值
, 在哪里是平方梯度的移动平均值,并且是学习率,
被假定为正数,然而,它只适用于 SGD 和 AdaGrad,而对于 RMSProp 和 Adam 可以是任何东西。我找不到在亚当的起源收敛证明中假定和使用这个属性的地方,有人可以向我指出吗?
Sashank J. Reddi 等。al 在他们的论文“关于亚当和超越的收敛”中说,亚当在原始论文中的收敛证明是错误的。不仅如此,他们还指出价值
, 在哪里是平方梯度的移动平均值,并且是学习率,
被假定为正数,然而,它只适用于 SGD 和 AdaGrad,而对于 RMSProp 和 Adam 可以是任何东西。我找不到在亚当的起源收敛证明中假定和使用这个属性的地方,有人可以向我指出吗?