小批量大小对 Adam Optimizer 有什么影响?使用 Adam Optimizer 训练(covolutional)神经网络时,是否有推荐的 mini-batch 大小?
据我了解(我可能错了),对于小批量的结果往往是嘈杂的,但对于大批量的结果也是不准确的(假设一次通过整个训练集)。
小批量大小对 Adam Optimizer 有什么影响?使用 Adam Optimizer 训练(covolutional)神经网络时,是否有推荐的 mini-batch 大小?
据我了解(我可能错了),对于小批量的结果往往是嘈杂的,但对于大批量的结果也是不准确的(假设一次通过整个训练集)。
是的,批量大小会影响 Adam 优化器。可以使用常见的批量大小 16、32 和 64。结果表明,批量大小有一个最佳点,模型在该点上表现最好。例如,在 MNIST 数据上,三种不同的批量大小给出了不同的准确度,如下表所示:
|Batch Size | Test Accuracy |
-----------------------------------|
|1024 | 96% with 30 epochs |
|64 | 98% with 30 epochs |
|2 | 99% with 30 epochs |
|__________________________________|
因此,可以得出结论,减小批量大小会提高测试准确性。但是,不要概括这些发现,因为它取决于现有数据的复杂性。
这是一个详细的博客(批量大小对训练动态的影响),讨论了批量大小的影响。此外,以下研究论文对批量大小如何影响模型准确性(泛化)进行了详细的概述和分析。
我只想将此作为评论,但我没有足够的声誉。
这里对大批量和小批量的权衡进行了很好的讨论。