人工智能 - 为什么学习率普遍低于1？ - 吾爱随笔录

为什么学习率普遍低于1？

人工智能机器学习优化梯度下降学习率随机梯度下降

2021-11-15 09:10:37

在我见过的所有例子中，优化方法的学习率总是小于 $1$ . 但是，我从来没有找到解释为什么会这样。除此之外，在某些情况下，学习率大于 1 是有益的，例如在超收敛的情况下。

为什么学习率一般小于1？具体来说，在对参数执行更新时，为什么梯度通常乘以小于 1 的因子（绝对）？

1个回答

如果学习率大于等于 $1$ 罗宾斯-门罗条件

\begin{matrix} (1) & \sum_{t = 0}^{\infty} a_{t}^{2} < \infty, \end{matrix}

$\sum _{{t=0}}^{{\infty }}a_{t}^{2}<\infty\label{1}\tag{1},$

在哪里 $a_t$ 是迭代时的学习率 $t$ , 不成立（假设一个数大于 $1$ squared 变成一个更大的数），因此随机梯度下降通常不能保证收敛到最小值 [ 1 ]（尽管条件 $\ref{1}$ 是一个总和 $t=0$ 到 $t=\infty$ ，但是，当然，我们只迭代有限次数的迭代）。此外，请注意，如果学习率大于 $1$ , 本质上你给损失函数的梯度赋予了比参数的当前值更多的权重（你赋予了权重 $1$ 到参数）。

这可能是学习率通常在范围内的主要原因 $(0, 1)$ 并且有一些方法可以降低学习率，这可能是有益的（并且有几种解释为什么会出现这种情况 [ 2 ]）。

其它你可能感兴趣的问题

上一篇为什么前馈神经网络需要固定大小的输入，而 RNN 可以处理可变大小的输入？下一篇深度强化学习问题中最大累积奖励的上限