当我实现小批量梯度下降时,我只是对训练批次中所有示例的梯度进行平均。但是,我注意到现在的最佳学习率比在线梯度体面的要高得多。我的直觉是,这是因为平均梯度噪声较小,因此可以更快地跟踪。所以也许仅仅总结一个批次的梯度也是有意义的。无论如何,这些值可以是正数和负数。
我知道这只是一个可以使用学习率平衡的常数因素。但我想知道科学家们同意的定义是什么,以便我可以从神经网络论文中重现结果。
通常是否将批次的总梯度除以批次大小?
当我实现小批量梯度下降时,我只是对训练批次中所有示例的梯度进行平均。但是,我注意到现在的最佳学习率比在线梯度体面的要高得多。我的直觉是,这是因为平均梯度噪声较小,因此可以更快地跟踪。所以也许仅仅总结一个批次的梯度也是有意义的。无论如何,这些值可以是正数和负数。
我知道这只是一个可以使用学习率平衡的常数因素。但我想知道科学家们同意的定义是什么,以便我可以从神经网络论文中重现结果。
通常是否将批次的总梯度除以批次大小?
平均的。
示例:由 Alex Holehouse 编写的Andrew Ng 在 Coursera 上的机器学习课程的注释。
对单个样本的梯度求和,你会得到一个更平滑的梯度。批次越大,用于更新权重的梯度越平滑。
将总和除以批量大小并取平均梯度具有以下效果:
平均可以实现更清晰的可比性,并使梯度大小与批量大小无关。选择批量大小有时会受到您拥有的计算资源的限制,并且您希望在评估模型时减轻这种影响。