数据挖掘 - 每一层的学习率不同？ - 吾爱随笔录

每一层的学习率不同？

数据挖掘机器学习神经网络深度学习喀拉斯火炬

2021-10-11 19:11:09

我注意到一些流行的深度学习框架，如Keras或Pytorch，允许您为每一层设置不同的学习率。

这种方法有什么好处？

1个回答

在像梯度下降这样的微不足道的更新规则中，学习率很重要，它以某种方式指定了你下坡的速度。在像Adam优化技术这样的流行论文中，以及在非纸化（！）流行的解决方案（即RMSProp ）中，作者关心不同特征的斜率可能会有所不同，并且由于它的斜率，您可能需要在一个方向上走得更快。因此，他们决定设置学习率并根据其自身的斜率更新每个参数，并且该学习率在某种程度上受到每个方向的斜率的影响，独立于其他维度。动机是这样的。据我所知，您只需要为优化设置学习率，它就会自行调整。

其它你可能感兴趣的问题