在我见过的所有例子中,优化方法的学习率总是小于. 但是,我从来没有找到解释为什么会这样。除此之外,在某些情况下,学习率大于 1 是有益的,例如在超收敛的情况下。
为什么学习率一般小于1?具体来说,在对参数执行更新时,为什么梯度通常乘以小于 1 的因子(绝对)?
在我见过的所有例子中,优化方法的学习率总是小于. 但是,我从来没有找到解释为什么会这样。除此之外,在某些情况下,学习率大于 1 是有益的,例如在超收敛的情况下。
为什么学习率一般小于1?具体来说,在对参数执行更新时,为什么梯度通常乘以小于 1 的因子(绝对)?