神经网络的批量大小可能太小?

数据挖掘 神经网络
2022-02-22 13:01:22

我们知道,当批量太大时,模型可能无法收敛。batch_size但是除了需要很长时间训练之外,批量大小太小(比如 = 1)的缺点是什么?通常使用 32 的批量大小并称为“小”,但为什么我们不使用更小的批量大小 1 来保证收敛呢?

1个回答

通常使用 32 的批量大小并称为“小”,但为什么我们不使用更小的批量大小 1 来保证收敛呢?

问题在于,小批量既有助于收敛,也有损收敛。基于小批量更新权重会更嘈杂。噪音可能很好,通过摆脱局部最优来提供帮助。然而,同样的噪音和急动会阻止下降完全收敛到最佳状态。

这是这些因素之间的权衡,最佳批量大小将取决于误差流形的形状。较大的批量大小对凸误差更好,较小的批量大小对具有更深局部最优值的错误有好处。

收敛