为什么在很多情况下 RMSProp 的收敛速度比 Momentum 快?
势头:
RMSProp:
在哪里是学习率(0.01 等),是动量项(0.9 等),类似于 B
在我看来,动量和 RMSProp 都有“保持移动的趋势”。好吧,我可以看到 RMSprop 如何在平面上自然加速,因为
什么时候很小,但是 RMSprop 提供了另一个好处吗?
为什么在很多情况下 RMSProp 的收敛速度比 Momentum 快?
势头:
RMSProp:
在哪里是学习率(0.01 等),是动量项(0.9 等),类似于 B
在我看来,动量和 RMSProp 都有“保持移动的趋势”。好吧,我可以看到 RMSprop 如何在平面上自然加速,因为
什么时候很小,但是 RMSprop 提供了另一个好处吗?
动量是线性的并提供更新速度
RMSprop 贡献了过去“平方梯度”的指数衰减平均值
在 RMS Prop 通过使用平均值,我们实际上试图减少垂直移动,因为它们在平均时总和为 0(大约)。
RMS 提供更新的平均值
Adam 使用 RMS prop 和 Momentum Speed 和 Average of update 结合在一起,平均而言,它将加快需要更多更新的方向
这三个都比没有指数加权平均的随机梯度体面快,最坏情况下使用动量,不要进行正常的权重更新