我注意到一些流行的深度学习框架,如Keras或Pytorch,允许您为每一层设置不同的学习率。
这种方法有什么好处?
我注意到一些流行的深度学习框架,如Keras或Pytorch,允许您为每一层设置不同的学习率。
这种方法有什么好处?
在像梯度下降这样的微不足道的更新规则中,学习率很重要,它以某种方式指定了你下坡的速度。在像Adam优化技术这样的流行论文中,以及在非纸化(!)流行的解决方案(即RMSProp )中,作者关心不同特征的斜率可能会有所不同,并且由于它的斜率,您可能需要在一个方向上走得更快。因此,他们决定设置学习率并根据其自身的斜率更新每个参数,并且该学习率在某种程度上受到每个方向的斜率的影响,独立于其他维度。动机是这样的。据我所知,您只需要为优化设置学习率,它就会自行调整。