亚当收敛证明的错误是什么

机器算法验证 机器学习 神经网络 优化 亚当
2022-03-12 11:12:00

Sashank J. Reddi 等。al 在他们的论文“关于亚当和超越的收敛”中说,亚当在原始论文中的收敛证明是错误的。不仅如此,他们还指出价值

Гt+1=Vt+1at+1Vtat, 在哪里V是平方梯度的移动平均值,并且a是学习率,

被假定为正数,然而,它只适用于 SGD 和 AdaGrad,而对于 RMSProp 和 Adam 可以是任何东西。我找不到在亚当的起源收敛证明中假定和使用这个属性的地方,有人可以向我指出吗?

0个回答
没有发现任何回复~