follow- the -regularized-leader近端梯度下降使用这个更新步骤:
我们在圆,我们已经看到了数据点。
是梯度样本。
是一个不增加的学习率,定义为
最后是一个正则化项。
你能给出一个几何/物理/其他简单的直觉,我们用前两个术语做什么?第一个是否代表某种势头?第二个要求我们的新位置与以前的位置不同吗?
如果你觉得这像是试图过度简化一个沉重的理论,请耐心等待......
follow- the -regularized-leader近端梯度下降使用这个更新步骤:
我们在圆,我们已经看到了数据点。
是梯度样本。
是一个不增加的学习率,定义为
最后是一个正则化项。
你能给出一个几何/物理/其他简单的直觉,我们用前两个术语做什么?第一个是否代表某种势头?第二个要求我们的新位置与以前的位置不同吗?
如果你觉得这像是试图过度简化一个沉重的理论,请耐心等待......
遵循McMahan 的 Follow-the-Regularized-Leader 和 Mirror Descent:等价定理。
论文表明,简单的梯度下降更新规则可以写成与上述规则非常相似的方式。
FOBOS(梯度下降变体)的直观更新规则是:
在哪里
我们可以找到导数为 0 的位置,并得到一个明确的更新规则:
论文继续表明,上面同样直观的更新规则也可以写成:
这与 FTRL-proximal 公式非常相似。事实上,梯度部分(第 1 项)和近端强凸性(第 3 项)是相同的,这些都是我感兴趣的部分。
对于 FOBOS,原始公式基本上是 SGD 的扩展:http ://stanford.edu/~jduchi/projects/DuchiSi09c_slides.pdf
FTRL 论文试图通过以与 FTRL 类似的方式制定 Duchi 封闭形式更新来给出统一的观点。术语 g*x (在 ihadanny 的回答中也提到过)有点奇怪,但如果你从上面的 pdf 中工作,那就很清楚了:
在上述 pdf 的第 8 页上,如果我们暂时忽略正则化项 R,
这和 以上是 argmin 的所有常量,因此被忽略,那么你有 ihadanny 给出的形式
这形式是有道理的(在上述 Duchi 形式的等价推导之后),但在这种形式中它非常不直观,更是如此FTRL 论文中的表格。要以更直观的 Duchi 形式理解 FTRL 公式,请注意 FTRL 和 FOBOS 之间的主要区别只是->(请参阅https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/37013.pdf注意实际上第 2 页表格中的 FOBOS 有错字,您应该查看段落中的方程式)然后只需更改到在上面的等价推导中,你会发现 FTRL 基本上是封闭形式的 FOBOS 更新,对于值更“保守”通过使用平均值