数据挖掘 - Adagrad 优化背后的直觉 - 吾爱随笔录

数据挖掘神经网络优化学习率

2022-02-11 16:35:37

以下论文ADADELTA: AN ADAPTIVE LEARNING RATE METHOD给出了一种称为 Adagrad 的方法，其中我们有以下更新规则：现在我知道这个更新规则会为每次迭代动态选择学习率，但有以下问题：

X_{n + 1} = X_{n} - [L r / \sqrt{\sum_{i = 0}^{n} g_{i}^{2}}] * g_{n}

$X_{n+1} = X_n -[Lr/\sqrt{\sum_{i=0}^ng_i^2}]*g_n$

1个回答

为了理解 Adagrad 背后的直觉，让我们看一下下面的图表，它们代表了在一维搜索空间中根据学习率的不同值更新模型的权重时损失函数的演变：

图 1（左 - 太快了！）：当更新模型的权重时，我们可以看到它没有收敛到全局最小值。这是因为学习率太高，一直在底部反弹。

图 2（中心 - 太慢了！）：在这种情况下，权重的更新非常缓慢，因为学习率太小，因此需要很长时间才能收敛（甚至永远不会）到全局最小值。

图 3（右 - Spot On！）：在这种情况下，学习率根据梯度的值进行调整，即梯度越高，学习率越低，或者梯度越低，学习率越高速度。这使得可以增加收敛的机会，而无需之前评论过的问题。

Adagrad 是 ADAM、ADADELTA 等几种自适应梯度下降算法之一。您可以在此处查看更多信息。

注意：上面的图片是从这里拍摄的。

其它你可能感兴趣的问题