Adagrad的直观解释,它的目的和它的公式

人工智能 机器学习 梯度下降 超参数优化
2021-11-06 04:45:11

它(Adagrad)使学习率适应参数,对与频繁出现的特征相关的参数执行较小的更新(即低学习率),对与不经常出现的特征相关的参数执行较大的更新(即高学习率)。

来自Sebastian Ruder 的博客

如果一个参数与一个不常见的特征相关联,那么是的,更重要的是关注正确调整该参数,因为它在分类问题中更具决定性。但是在这种情况下提高学习率有什么帮助呢?

如果它只改变参数维度上的移动大小(使其更大),那不会让事情变得更加不精确吗?由于网络更多地依赖于那些不常见的特征,不应该更精确地调整这些参数而不是更快地完成吗?更具决定性的参数应该有更高的“斜率”,那么为什么它们也应该有高学习率呢?我一定错过了什么,但它是什么?

此外,在文章中,给出了使用 Adagrad 进行参数调整的公式。您究竟在该公式中的何处找到有关参数频率的信息?参数的梯度和与之相关的特征频率之间必须存在关系,因为梯度在公式中起着重要作用。那是什么关系?

TLDR:我不了解 Adagrad 背后的目的和公式。什么是对它的直观解释,它也为上述问题提供了答案,或者说明了为什么它们不相关?

1个回答

我在这里找到了一个更容易理解的介绍:

https://medium.com/konvergen/an-introduction-to-adagrad-f130ae871827

让我从你问题的最后一部分开始。参数的频率以 G_t 为单位,它是从所有时间步长到步长 t 的梯度平方和的累积和。如果梯度在前面的许多步骤中消失了,那么你将学习率除以该参数的较小数字。

对于第一部分,您希望更频繁的参数具有更小的学习率,因为它与仅更新少量的参数相比,它在更多的迭代中更新。