机器算法验证 - 惩罚线性回归的几何解释 - 吾爱随笔录

惩罚线性回归的几何解释

机器算法验证回归直觉几何学

2022-02-05 10:03:00

我知道线性回归可以被认为是“垂直最接近所有点的线”：

在此处输入图像描述

但是还有另一种方式来看待它，通过将列空间可视化为“在系数矩阵的列所跨越的空间上的投影”：

在此处输入图像描述

我的问题是：在这两种解释中，当我们使用惩罚线性回归（如岭回归和 LASSO ）时会发生什么？第一个解释中的行会发生什么？第二种解释中的投影会发生什么？

更新： @JohnSmith 在评论中提出了惩罚发生在系数空间中的事实。这个空间也有解释吗？

2个回答

对不起我的绘画技巧，我会尽力给你以下直觉。

让 $f(\beta)$ 是目标函数（例如，回归情况下的 MSE）。让我们想象一下这个函数的等高线图是红色的（当然我们把它画在 $\beta$ , 这里为简单起见 $\beta_1$ 和 $\beta_2$ ）。

这个函数的最小值，在红色圆圈的中间。这个最小值为我们提供了不受惩罚的解决方案。

现在我们添加不同的目标 $g(\beta)$ 哪个等高线图以蓝色给出。LASSO 正则化器或岭回归正则化器。套索 $g(\beta) = \lambda (|\beta_1| + |\beta_2|)$ , 对于岭回归 $g(\beta) = \lambda (\beta_1^2 + \beta_2^2)$ ( $\lambda$ 是一个惩罚参数）。等高线图显示函数具有固定值的区域。所以越大 $\lambda$ - 越快 $g(x)$ 增长，等高线图越“窄”。

现在我们必须找到这两个目标之和的最小值： $f(\beta) + g(\beta)$ . 这是在两个等高线图相遇时实现的。

LASSO 和岭回归

惩罚越大，我们得到的蓝色轮廓就越“窄”，然后这些图在接近零的点处相遇。反之亦然：惩罚越小，等高线扩大，蓝色和红色图的交点越靠近红色圆圈的中心（非惩罚解决方案）。

现在发生了一件有趣的事情，它极大地向我解释了岭回归和 LASSO 之间的区别：在 LASSO 的情况下，两个等高线图可能会在正则化器的拐角处相遇（ $\beta_1 = 0$ 或者 $\beta_2 = 0$ ）。在岭回归的情况下，几乎不会出现这种情况。

这就是为什么 LASSO 为我们提供了稀疏解，使某些参数完全相等 $0$ .

希望这将解释一些关于惩罚回归如何在参数空间中工作的直觉。

我的直觉如下：在最小二乘情况下，帽子矩阵是正交投影，因此是幂等的。在惩罚的情况下，帽子矩阵不再是幂等的。实际上，无限多次应用它会将系数缩小到原点。另一方面，系数仍然必须位于预测变量的范围内，因此它仍然是一个投影，尽管不是正交的。惩罚因子的大小和范数的类型控制着收缩向原点的距离和方向。

其它你可能感兴趣的问题

上一篇之前的贝叶斯击球率下一篇回归与方差分析差异（R 中的 aov 与 lm）