为什么学习率普遍低于1?

人工智能 机器学习 优化 梯度下降 学习率 随机梯度下降
2021-11-15 09:10:37

在我见过的所有例子中,优化方法的学习率总是小于1. 但是,我从来没有找到解释为什么会这样。除此之外,在某些情况下,学习率大于 1 是有益的,例如在超收敛的情况下。

为什么学习率一般小于1?具体来说,在对参数执行更新时,为什么梯度通常乘以小于 1 的因子(绝对)?

1个回答

如果学习率大于等于1罗宾斯-门罗条件

(1)t=0at2<,

在哪里at是迭代时的学习率t, 不成立(假设一个数大于1squared 变成一个更大的数),因此随机梯度下降通常不能保证收敛到最小值 [ 1 ](尽管条件1是一个总和t=0t=,但是,当然,我们只迭代有限次数的迭代)。此外,请注意,如果学习率大于1, 本质上你给损失函数的梯度赋予了比参数的当前值更多的权重(你赋予了权重1到参数)。

这可能是学习率通常在范围内的主要原因(0,1)并且有一些方法可以降低学习率,这可能是有益的(并且有几种解释为什么会出现这种情况 [ 2 ])。