你能给出 FTRL 更新步骤背后的直觉吗?

机器算法验证 梯度下降 直觉
2022-03-09 05:02:35

follow- the -regularized-leader近端梯度下降使用这个更新步骤:

wt+1=argminw(ws=1tgs+12s=1tσs(wws)2+λ1|w|)

  • 我们在t+1圆,我们已经看到了t数据点。

  • gs是梯度s样本。

  • σs是一个不增加的学习率,定义为s=1tσs=t

  • 最后λ1是一个正则化项。

你能给出一个几何/物理/其他简单的直觉,我们用前两个术语做什么?第一个是否代表某种势头?第二个要求我们的新位置与以前的位置不同吗?

如果你觉得这像是试图过度简化一个沉重的理论,请耐心等待......

2个回答

遵循McMahan 的 Follow-the-Regularized-Leader 和 Mirror Descent:等价定理

论文表明,简单的梯度下降更新规则可以写成与上述规则非常相似的方式。

FOBOS(梯度下降变体)的直观更新规则是:

xt+1=argminx[gtx+12μt|xxt|2]

在哪里

  • gt是前一个样本的梯度t- 我们希望朝那个方向移动,因为它减少了我们对该样本的假设的损失。
  • 但是,我们不想改变我们的假设xt太多(因为害怕对我们已经看到的例子做出错误的预测)。μt是这个样本的步长,它应该使每一步都更加保守。

我们可以找到导数为 0 的位置,并得到一个明确的更新规则:

xt+1=xtμtgt

论文继续表明,上面同样直观的更新规则也可以写成:

xt+1=argminx[g1:tx+ϕ1:t1x+ψ(x)+12s=1t|xxs|2]

这与 FTRL-proximal 公式非常相似。事实上,梯度部分(第 1 项)和近端强凸性(第 3 项)是相同的,这些都是我感兴趣的部分。

对于 FOBOS,原始公式基本上是 SGD 的扩展:http ://stanford.edu/~jduchi/projects/DuchiSi09c_slides.pdf

FTRL 论文试图通过以与 FTRL 类似的方式制定 Duchi 封闭形式更新来给出统一的观点。术语 g*x (在 ihadanny 的回答中也提到过)有点奇怪,但如果你从上面的 pdf 中工作,那就很清楚了:

在上述 pdf 的第 8 页上,如果我们暂时忽略正则化项 R,

wt+1=argminw{12wwt+1/22}=argminw{12w(wtηgt)2}considering page 7 of the Duchi pdf=(wwt)t(wwt)+2η(wwt)tgt+η2gttgt

wtgt以上是 argmin 的所有常量,因此被忽略,那么你有 ihadanny 给出的形式

wgt形式是有道理的(在上述 Duchi 形式的等价推导之后),但在这种形式中它非常不直观,更是如此g1:twFTRL 论文中的表格。要以更直观的 Duchi 形式理解 FTRL 公式,请注意 FTRL 和 FOBOS 之间的主要区别只是g1:t->gt(请参阅https://static.googleusercontent.com/media/research.google.com/en//pubs/archive/37013.pdf注意实际上第 2 页表格中的 FOBOS 有错字,您应该查看段落中的方程式)然后只需更改gtg1:t在上面的等价推导中,你会发现 FTRL 基本上是封闭形式的 FOBOS 更新,对于值更“保守”gt通过使用平均值g1:t