数据挖掘 - 为什么 AdaGrad 更新方程中的 L2 范数不是 L1？ - 吾爱随笔录

AdaGrad的更新方程如下：

我知道稀疏功能有小的更新，这是一个问题。我了解 AdaGrad 的想法是使参数的更新速度（学习率）与该参数的更新历史成反比（ / 先前更新的总和）。这与其他参数无关。这使得对稀疏特征进行的少量更新比密集特征具有更高的学习率。 $\eta$

我的问题是关于如何在上述等式中实现这一点。为什么我们要对更新历史的平方求和并得到它的平方根？我知道我们需要摆脱负号。那么，为什么不直接对绝对值求和呢？