惩罚线性回归的几何解释

机器算法验证 回归 直觉 几何学
2022-02-05 10:03:00

我知道线性回归可以被认为是“垂直最接近所有点的线”

在此处输入图像描述

但是还有另一种方式来看待它,通过将列空间可视化为“在系数矩阵的列所跨越的空间上的投影”

在此处输入图像描述

我的问题是:在这两种解释中,当我们使用惩罚线性回归(如岭回归LASSO )时会发生什么?第一个解释中的行会发生什么?第二种解释中的投影会发生什么?

更新: @JohnSmith 在评论中提出了惩罚发生在系数空间中的事实。这个空间也有解释吗?

2个回答

对不起我的绘画技巧,我会尽力给你以下直觉。

f(β)是目标函数(例如,回归情况下的 MSE)。让我们想象一下这个函数的等高线图是红色的(当然我们把它画在β, 这里为简单起见β1β2)。

这个函数的最小值,在红色圆圈的中间。这个最小值为我们提供了不受惩罚的解决方案。

现在我们添加不同的目标g(β)哪个等高线图以蓝色给出。LASSO 正则化器或岭回归正则化器。套索g(β)=λ(|β1|+|β2|), 对于岭回归g(β)=λ(β12+β22)(λ是一个惩罚参数)。等高线图显示函数具有固定值的区域。所以越大λ- 越快g(x)增长,等高线图越“窄”。

现在我们必须找到这两个目标之和的最小值:f(β)+g(β). 这是在两个等高线图相遇时实现的。

LASSO 和岭回归

惩罚越大,我们得到的蓝色轮廓就越“窄”,然后这些图在接近零的点处相遇。反之亦然:惩罚越小,等高线扩大,蓝色和红色图的交点越靠近红色圆圈的中心(非惩罚解决方案)。

现在发生了一件有趣的事情,它极大地向我解释了岭回归和 LASSO 之间的区别:在 LASSO 的情况下,两个等高线图可能会在正则化器的拐角处相遇(β1=0或者β2=0)。在岭回归的情况下,几乎不会出现这种情况。

这就是为什么 LASSO 为我们提供了稀疏解,使某些参数完全相等0.

希望这将解释一些关于惩罚回归如何在参数空间中工作的直觉。

我的直觉如下:在最小二乘情况下,帽子矩阵是正交投影,因此是幂等的。在惩罚的情况下,帽子矩阵不再是幂等的。实际上,无限多次应用它会将系数缩小到原点。另一方面,系数仍然必须位于预测变量的范围内,因此它仍然是一个投影,尽管不是正交的。惩罚因子的大小和范数的类型控制着收缩向原点的距离和方向。