是什么导致模型需要低学习率?

人工智能 机器学习 楷模 超参数 学习率
2021-10-28 01:40:33

我已经思考了一段时间,但没有对背后的数学产生直觉。

那么是什么导致模型需要低学习率呢?

1个回答

梯度下降是一种寻找假设的最佳参数或最小化成本函数的方法。

公式 其中 alpha 是学习率

如果学习率很高,那么它可能会超过最小值并且无法最小化成本函数。 在此处输入图像描述

因此导致更高的损失。

在此处输入图像描述

由于梯度下降只能找到局部最小值,因此较低的学习率可能会导致性能不佳。为此,最好从超参数的随机值开始可以增加模型的训练时间,但是有一些先进的方法,例如自适应梯度下降可以管理训练时间。

同一任务有很多优化器,但没有一个优化器是完美的。这取决于一些因素

  1. 训练数据的大小:随着训练数据大小的增加,模型的训练时间也会增加。如果您想使用更少的训练模型时间,您可以选择更高的学习率,但可能会导致性能不佳。
  2. 只要梯度很小,优化器(梯度下降)就会变慢,那么最好使用更高的学习率。

PS。使用不同轮次的梯度下降总是更好