Keras RMSprop 中 Rho 和衰减参数的区别
机器算法验证
优化
张量流
循环神经网络
喀拉斯
有效值
2022-03-28 16:00:56
1个回答
简短说明
rho 是“梯度移动平均 [也是指数加权平均] 衰减因子”,而衰减是“每次更新的学习率衰减”。
长解释
RMSProp 定义如下
因此 RMSProp 使用“rho”来计算梯度平方的指数加权平均值。
请注意,“rho”是 RMSProp 优化器的直接参数(在 RMSProp 公式中使用)。
Decay 另一方面处理学习率衰减。学习率衰减是一种通常独立于所选优化器应用的机制。为了方便起见,Keras 只是将此机制构建到 RMSProp 优化器中(就像SGD和Adam等其他优化器一样,它们都具有相同的“衰减”参数)。您可能会将“decay”参数视为“lr_decay”。
起初可能会令人困惑,有两个衰减参数,但它们衰减不同的值。
- “rho”是衰减因子或梯度平方的指数加权平均值。
- “decay”随着时间的推移会衰减学习率,因此我们可以在训练结束时更接近局部最小值。
其它你可能感兴趣的问题
