我知道线性回归可以被认为是“垂直最接近所有点的线”:
但是还有另一种方式来看待它,通过将列空间可视化为“在系数矩阵的列所跨越的空间上的投影”:
我的问题是:在这两种解释中,当我们使用惩罚线性回归(如岭回归和 LASSO )时会发生什么?第一个解释中的行会发生什么?第二种解释中的投影会发生什么?
更新: @JohnSmith 在评论中提出了惩罚发生在系数空间中的事实。这个空间也有解释吗?
我知道线性回归可以被认为是“垂直最接近所有点的线”:
但是还有另一种方式来看待它,通过将列空间可视化为“在系数矩阵的列所跨越的空间上的投影”:
我的问题是:在这两种解释中,当我们使用惩罚线性回归(如岭回归和 LASSO )时会发生什么?第一个解释中的行会发生什么?第二种解释中的投影会发生什么?
更新: @JohnSmith 在评论中提出了惩罚发生在系数空间中的事实。这个空间也有解释吗?
对不起我的绘画技巧,我会尽力给你以下直觉。
让是目标函数(例如,回归情况下的 MSE)。让我们想象一下这个函数的等高线图是红色的(当然我们把它画在, 这里为简单起见和)。
这个函数的最小值,在红色圆圈的中间。这个最小值为我们提供了不受惩罚的解决方案。
现在我们添加不同的目标哪个等高线图以蓝色给出。LASSO 正则化器或岭回归正则化器。套索, 对于岭回归(是一个惩罚参数)。等高线图显示函数具有固定值的区域。所以越大- 越快增长,等高线图越“窄”。
现在我们必须找到这两个目标之和的最小值:. 这是在两个等高线图相遇时实现的。
惩罚越大,我们得到的蓝色轮廓就越“窄”,然后这些图在接近零的点处相遇。反之亦然:惩罚越小,等高线扩大,蓝色和红色图的交点越靠近红色圆圈的中心(非惩罚解决方案)。
现在发生了一件有趣的事情,它极大地向我解释了岭回归和 LASSO 之间的区别:在 LASSO 的情况下,两个等高线图可能会在正则化器的拐角处相遇(或者)。在岭回归的情况下,几乎不会出现这种情况。
这就是为什么 LASSO 为我们提供了稀疏解,使某些参数完全相等.
希望这将解释一些关于惩罚回归如何在参数空间中工作的直觉。
我的直觉如下:在最小二乘情况下,帽子矩阵是正交投影,因此是幂等的。在惩罚的情况下,帽子矩阵不再是幂等的。实际上,无限多次应用它会将系数缩小到原点。另一方面,系数仍然必须位于预测变量的范围内,因此它仍然是一个投影,尽管不是正交的。惩罚因子的大小和范数的类型控制着收缩向原点的距离和方向。