人工智能 - Adagrad的直观解释，它的目的和它的公式 - 吾爱随笔录

它（Adagrad）使学习率适应参数，对与频繁出现的特征相关的参数执行较小的更新（即低学习率），对与不经常出现的特征相关的参数执行较大的更新（即高学习率）。

如果一个参数与一个不常见的特征相关联，那么是的，更重要的是关注正确调整该参数，因为它在分类问题中更具决定性。但是在这种情况下提高学习率有什么帮助呢？

如果它只改变参数维度上的移动大小（使其更大），那不会让事情变得更加不精确吗？由于网络更多地依赖于那些不常见的特征，不应该更精确地调整这些参数而不是更快地完成吗？更具决定性的参数应该有更高的“斜率”，那么为什么它们也应该有高学习率呢？我一定错过了什么，但它是什么？

此外，在文章中，给出了使用 Adagrad 进行参数调整的公式。您究竟在该公式中的何处找到有关参数频率的信息？参数的梯度和与之相关的特征频率之间必须存在关系，因为梯度在公式中起着重要作用。那是什么关系？

TLDR：我不了解 Adagrad 背后的目的和公式。什么是对它的直观解释，它也为上述问题提供了答案，或者说明了为什么它们不相关？