机器算法验证 - 深度学习：为什么增加 batch_size 会导致过拟合，如何减少它？ - 吾爱随笔录

我曾经在我的本地机器上训练我的模型，那里的内存只够每批 10 个示例。但是，当我将模型迁移到 AWS 并使用更大的 GPU（Tesla K80）时，我可以容纳 32 个批量大小。但是，AWS 模型的性能都非常非常差，并且有很大的过度拟合迹象。为什么会这样？

我目前使用的模型是 inception-resnet-v2 模型，我要解决的问题是计算机视觉问题。我能想到的一种解释是，可能是批处理规范过程使它更习惯于批处理图像。作为一种缓解措施，我降低了 batch_norm 衰减移动平均线。

另外，我应该将 dropout 与 batch_norm 一起使用吗？这种做法普遍吗？

我的训练图像大约是 5000 张，但我训练了大约 60 个 epoch。这是考虑很多还是我应该提前停止培训？