当数据集大小不是 mini-batch 大小的倍数时,最后一个 mini-batch 应该更小,还是包含其他批次的样本?

机器算法验证 神经网络 深度学习 梯度下降
2022-03-23 10:45:10

在使用 mini-batch 的随机梯度下降训练人工神经网络时,如果数据集大小不是 mini-batch 的倍数,最后一个 mini-batch 是否应该包含更少的样本?或者,通过随机添加来自其他批次的样本(这是此处此处使用的策略),最好让最后一个小批次包含与其他批次相同数量的样本

1个回答

相同的数字,否则您将在最终小批量中的样本上施加更多权重(除非您缩小学习权重以匹配较小的大小)。

从训练集中添加随机样本也应该没问题(只要您的采样池包含 runt minibatch),因为每个样本在一个 epoch 中出现两次的机会相同。

或者只是做一个模并再次从头开始抓取样本。

在实践中,这可能并不重要。