批量太大

机器算法验证 深度学习
2022-03-27 19:22:02

我用 CIFA10 数据集做实验。在我的模型中,我发现批量越大,模型对数据集的学习效果就越好。从我在互联网上看到的典型尺寸是 32 到 128,我的最佳尺寸是 512-1024。可以吗?或者有什么我应该看的东西来改进模型。我应该使用哪些指标来调试它?

PS 似乎梯度太嘈杂了,如果我们有更大的样本量,它会降低噪音。

2个回答

阅读以下论文这是一本很棒的书。关于深度学习的大批量训练:泛化差距和 Sharp Minima,Nitish Shirish Keska 等人,ICLR 2017。

在比较不同批次大小的效果的基准数据集上有很多很好的讨论和实证结果。正如他们总结的那样,大批量会导致过度拟合,他们解释了它收敛到一个急剧的最小值。

代码也可在此处获得。

过大的批大小会引入数值不稳定性,而逐层自适应学习率将有助于稳定训练。