它(Adagrad)使学习率适应参数,对与频繁出现的特征相关的参数执行较小的更新(即低学习率),对与不经常出现的特征相关的参数执行较大的更新(即高学习率)。
如果一个参数与一个不常见的特征相关联,那么是的,更重要的是关注正确调整该参数,因为它在分类问题中更具决定性。但是在这种情况下提高学习率有什么帮助呢?
如果它只改变参数维度上的移动大小(使其更大),那不会让事情变得更加不精确吗?由于网络更多地依赖于那些不常见的特征,不应该更精确地调整这些参数而不是更快地完成吗?更具决定性的参数应该有更高的“斜率”,那么为什么它们也应该有高学习率呢?我一定错过了什么,但它是什么?
此外,在文章中,给出了使用 Adagrad 进行参数调整的公式。您究竟在该公式中的何处找到有关参数频率的信息?参数的梯度和与之相关的特征频率之间必须存在关系,因为梯度在公式中起着重要作用。那是什么关系?
TLDR:我不了解 Adagrad 背后的目的和公式。什么是对它的直观解释,它也为上述问题提供了答案,或者说明了为什么它们不相关?