Ridge Regression 和 Adapting Gradient Descent 算法背后的直觉是什么?

数据挖掘 机器学习 梯度下降 正则化
2022-02-20 05:35:06

所以我正在经历自适应梯度下降,并学习它背后的直觉:优化学习算法,让模型更快地收敛。AdaGrad 这样做的方式是将权重向量除以L2规范。方程(从这里复制),对于它,是:

θt+1=θtηGtgt

如果我理解正确的话,Gt,是梯度平方和的根,即L2规范。现在如果我理解正确,gt在这种情况下将被视为“损失函数”

然后我被介绍了岭回归,它基本上增加了L2范数(由 lambda 缩放)到损失函数。这背后的直觉是平滑损失函数,使其不会过度拟合数据方程,(从这里修改)是:

LossL2=Loss+λL2

所以我的问题,假设我到目前为止的所有理解都是正确的,是:加法背后的直觉是什么,不是除以L2规范?

我知道您可以在 AdaGrad 中对损失函数进行正则化,并且它们是两个独立的东西,但我仍然无法理解数学是如何工作的。就像为什么除以L2norm 让它收敛得更快?为什么这不只是平滑权重向量呢?直觉上发生了什么?

2个回答

Adagrad 与岭回归完全无关。没有理由期望他们的方法应该有任何相似之处。

Adagrad 除以梯度的 L2 范数。岭回归通过添加参数的 L2 范数来修改目标函数。因此,即使看起来相同,但实际上并非如此;这是两个不相关的值。

数学中不存在 L2 范数总是必须相加或相除的原则。这只是一个数字。这就像看到一个方程乘以 2 和另一个方程加 2 并问“为什么第二个方程加 2 而不是乘以 2?” ——答案是“为什么不呢?没有理由期望他们必须以同样的方式使用数字 2”。

稀疏特征相对于密集特征具有少量更新,这是一个问题。

AdaGrad 的思想是使一个参数的更新速度(学习率)与该参数的更新历史之和成反比(η/ 以前更新的总和)。

在此处输入图像描述

这使得对稀疏特征进行的少量更新比密集特征具有更高的学习率。

欲了解更多详情,您可以观看此视频的前 10 分钟。