我曾经在我的本地机器上训练我的模型,那里的内存只够每批 10 个示例。但是,当我将模型迁移到 AWS 并使用更大的 GPU(Tesla K80)时,我可以容纳 32 个批量大小。但是,AWS 模型的性能都非常非常差,并且有很大的过度拟合迹象。为什么会这样?
我目前使用的模型是 inception-resnet-v2 模型,我要解决的问题是计算机视觉问题。我能想到的一种解释是,可能是批处理规范过程使它更习惯于批处理图像。作为一种缓解措施,我降低了 batch_norm 衰减移动平均线。
另外,我应该将 dropout 与 batch_norm 一起使用吗?这种做法普遍吗?
我的训练图像大约是 5000 张,但我训练了大约 60 个 epoch。这是考虑很多还是我应该提前停止培训?