我正在阅读有关深度学习的Adam 优化器,并在Bengio、Goodfellow 和 Courville的新书Deep Learning中看到以下句子:
Adam 通常被认为对超参数的选择相当稳健,尽管有时需要从建议的默认值更改学习率。
如果这是真的,那将是一件大事,因为超参数搜索在深度学习系统的统计性能中可能非常重要(至少根据我的经验)。因此,我的问题是,为什么亚当对如此重要的参数很鲁棒?特别和?
我已经阅读了 Adam 论文,但它没有提供任何解释为什么它可以使用这些参数或为什么它很健壮。他们是否在其他地方证明了这一点?
此外,当我阅读这篇论文时,他们尝试的超参数的数量似乎非常少,对于只有 2,对于只有 3。如果它只适用于 2x3 超参数,这怎么能成为一个彻底的实证研究?