我注意到在我一直使用的一些 caffe 模型中,偏差的学习率通常设置为权重的学习率的两倍。
另一位用户在此线程中提到了这种情况,但没有详细说明这样做的原因是什么。
将偏差作为权重使用不同的学习率有什么理由吗?我是否错过了一些提供理论或实验证明的论文?
我注意到在我一直使用的一些 caffe 模型中,偏差的学习率通常设置为权重的学习率的两倍。
另一位用户在此线程中提到了这种情况,但没有详细说明这样做的原因是什么。
将偏差作为权重使用不同的学习率有什么理由吗?我是否错过了一些提供理论或实验证明的论文?
我找不到任何文献讨论为偏差设置固定学习率的方式与其他权重不同,但如果你问负责该模型的研究人员,他们的答案可能是这样的:
“网络没有正确训练,我注意到偏差项的误差没有像我想要的那样快速收敛。当我尝试将那个项的学习率加倍时,它似乎解决了问题。我不知道人,它刚刚奏效。”
据我所知,训练神经网络仍然是一门艺术而不是科学,训练神经网络(取决于架构)所花费的技巧、耐心和细心对模型性能的影响与对网络的影响一样大拓扑。考虑诸如 GAN 中的模式崩溃、ReLU 的梯度消失或陷入局部最优等问题。神经网络在训练过程中经常需要“babysat”,因此反复试验可能会对某些训练过程的决策产生重大影响。如果这不是一个令人满意的答案,我很抱歉,但我强烈怀疑这就是这里发生的事情。如果您发布一些具体示例,可能更容易具体弄清楚发生了什么,
关于一般使用特定参数的学习率,大多数现代优化器都这样做,包括 AdaGrad、RMSProp 和 Adam。