批量大小如何影响 Adam Optimizer?

机器算法验证 卷积神经网络 亚当
2022-03-19 08:06:18

小批量大小对 Adam Optimizer 有什么影响?使用 Adam Optimizer 训练(covolutional)神经网络时,是否有推荐的 mini-batch 大小?

据我了解(我可能错了),对于小批量的结果往往是嘈杂的,但对于大批量的结果也是不准确的(假设一次通过整个训练集)。

2个回答

是的,批量大小会影响 Adam 优化器可以使用常见的批量大小 16、32 和 64。结果表明,批量大小有一个最佳点,模型在该点上表现最好。例如,在 MNIST 数据上,三种不同的批量大小给出了不同的准确度,如下表所示:

|Batch Size | Test Accuracy        |
-----------------------------------|
|1024       |  96% with 30 epochs  |
|64         |  98% with 30 epochs  |
|2          |  99% with 30 epochs  |
|__________________________________|

因此,可以得出结论,减小批量大小会提高测试准确性。但是,不要概括这些发现,因为它取决于现有数据的复杂性。

是一个详细的博客(批量大小对训练动态的影响),讨论了批量大小的影响。此外,以下研究论文对批量大小如何影响模型准确性(泛化)进行了详细的概述和分析。

  1. 史密斯,塞缪尔 L.,等人。“不要衰减学习率,增加批量大小。” arXiv 预印本 arXiv:1711.00489 (2017)。
  2. Hoffer、Elad、Itay Hubara 和 Daniel Soudry。“训练时间更长,泛化更好:缩小神经网络大批量训练中的泛化差距。” 神经信息处理系统的进展。2017 年。

我只想将此作为评论,但我没有足够的声誉。

这里对大批量和小批量的权衡进行了很好的讨论