为什么 AdaGrad 更新方程中的 L2 范数不是 L1?

数据挖掘 梯度下降
2022-03-04 15:35:55

AdaGrad的更新方程如下:

在此处输入图像描述

我知道稀疏功能有小的更新,这是一个问题。我了解 AdaGrad 的想法是使参数的更新速度(学习率)与该参数的更新历史成反比( / 先前更新的总和)。这与其他参数无关。这使得对稀疏特征进行的少量更新比密集特征具有更高的学习率。η

我的问题是关于如何在上述等式中实现这一点。为什么我们要对更新历史的平方求和并得到它的平方根?我知道我们需要摆脱负号。那么,为什么不直接对绝对值求和呢?

1个回答

原因是介绍该方法的文章(可在此处找到)使用关于 L2 范数的不等式证明了遗憾函数的边界。正方形也可以通过一些正二次形式的对角线来解释。

但是我不知道是否有人考虑过使用 L1 规范而不是 L2 的 AdaGrag。