批量大小的选择在某种意义上是随机性的度量:
- 一方面,较小的批大小使梯度下降更加随机,SGD 可以显着偏离整个数据上的确切 GD,但允许进行更多探索并在某种意义上执行贝叶斯推理。
- 较大的批大小更好地逼近确切的梯度,但这样更容易过度拟合数据或陷入局部最优。处理更大的批量大小还可以加快并行架构上的计算,但会增加对 RAM 或 GPU RAM 的需求。
似乎一个明智的策略是从较小的批量大小开始,在初始阶段进行大量探索,然后逐渐增加批量大小以微调模型。
但是,我没有看到在实践中实施这种策略?结果是效率低下吗?或者选择合适的学习率调度Dropout
器是否足够好?