我目前正在SGD
使用反向传播为神经网络实现随机梯度下降,虽然我了解它的目的,但我对如何选择学习率值有一些疑问。
- 学习率是否与误差梯度的形状有关,因为它决定了下降率?
- 如果是这样,您如何使用这些信息来告知您有关价值的决定?
- 如果不是我应该选择什么样的价值观,我应该如何选择?
- 似乎您希望使用较小的值来避免超调,但是您如何选择一个值,以免陷入局部最小值或需要很长时间才能下降?
- 有一个恒定的学习率是否有意义,或者我应该使用一些指标来改变它的值,因为我接近梯度的最小值?
简而言之:我如何选择 SGD 的学习率?