我已经思考了一段时间,但没有对背后的数学产生直觉。
那么是什么导致模型需要低学习率呢?
我已经思考了一段时间,但没有对背后的数学产生直觉。
那么是什么导致模型需要低学习率呢?
梯度下降是一种寻找假设的最佳参数或最小化成本函数的方法。
如果学习率很高,那么它可能会超过最小值并且无法最小化成本函数。
因此导致更高的损失。
由于梯度下降只能找到局部最小值,因此较低的学习率可能会导致性能不佳。为此,最好从超参数的随机值开始可以增加模型的训练时间,但是有一些先进的方法,例如自适应梯度下降可以管理训练时间。
同一任务有很多优化器,但没有一个优化器是完美的。这取决于一些因素
PS。使用不同轮次的梯度下降总是更好