为什么 Adam 和批量归一化被认为是近似二阶行为?

机器算法验证 优化 批量标准化
2022-03-26 23:33:19

“一些评论者提到,作者已经使用了 Adam 和 batchnorm,而 Adam 和 batchnorm 已经在逼近二阶行为”。[这个非常好的博客]

我可以看到(如果我错了,请纠正我)Nesterov 加速优化(在某种意义上)解决了在线凸优化,我们在其中选择使用跟随正则化领导者(FTRL,FoReL)选择先前观察到的梯度。但我看不出适应性是如何使用二阶统计来模拟的。而关于 batchnorm 的说法对我来说更加神秘。

1个回答

这是一个不精确的陈述,所以很难给出一个肯定的答案。动量和归一化方法,例如 Adam、(对角线)AdaGrad 和批量归一化(有效地)使用对 Hessian 的对角线近似。显然,这是一个非常粗略的近似,但它是近似二阶(粗麻布)信息。

我会将二阶方法与曲率估计联系起来,这不是对角线近似可以做到的。恕我直言,说他们正在逼近二阶信息的说法太强烈了。