看FractalNet和Resnet 的文章,我想知道是什么原因导致损失曲线形成这种形状:
学习速度停滞不前,然后突然显着下降。引起我注意的是,这发生在大约数个时期,这表明人为因素。
事实上,对于 FractalNet,我发现这篇文章是这样写的:
对于 CIFAR/SVHN,只要剩余 epoch 的数量减半,我们就会将学习率降低 10 倍。
我的问题是,显然尤其是在 FractalNet 的情况下,在 200 纪元之前,高原已经存在了相当长的一段时间。(a)尽快降低学习率或(b)使用一些线性学习率降低方案不是更好吗?
至少从视觉上看,这似乎可以将学习速度至少加快 25%。
有什么理由不使用它吗?只是添加超参数的额外开销?
如果只是一篇论文,我认为他们只是没有打扰,但看到这一点让我怀疑我错过了更大的东西。

