为什么正则化会破坏线性回归中预测和残差的正交性?

机器算法验证 机器学习 最小二乘 残差 正则化 监督学习
2022-02-09 09:42:36

跟进这个问题...

在普通最小二乘法中,预测和残差是正交的。

i=1ny^i(yiy^i)=0

如果我们使用其他方法而不是相同的模型来估计回归系数,例如使用正则化,为什么直观地会破坏正交性?

4个回答

我在我的网站上就这个问题写了一个全面的解释它可能对读者有用。


我将在这里讨论岭正则化,因为可以证明它巧妙地使用了用于推导 OLS 解决方案的相同方程(请参阅此答案)。

岭回归中的系数(带有惩罚权重λ) 很简单:

β=(XTX+λI)1XTy

OLS 的解也可以通过设置来获得λ=0.

岭问题的正规方程的使用可以从并对应于X. 连接由单位矩阵形成的新虚拟样本:

Xnew=[XoldλIp×p]Ynew=[Yold0p×1]

如果我们这样做,可以很直接地证明

β=(XoldTXold+λI)1XoldTyold=(XnewTXnew)1XnewTynew

因此,由于我们使用正规方程来推导岭回归的解,因此正交残差和预测的性质保持不变。

但请注意,现在,预测涉及这些虚拟样本。这就是为什么仅查看真实样本时,无法保证这种正交性:由于不考虑这些“虚拟”样本,您会丢失部分难题。

一张图片可能会有所帮助。在这张图片中,我们看到了配件的几何视图。

  • 最小二乘法在距离观察点最近的平面 上找到解。

    (更一般地,用于多个回归器的更高维平面和用于非线性回归的曲面)

    在这种情况下,观测值和解之间的向量垂直于平面(一个跨越回归量的空间),并且垂直于回归量。

  • 正则化回归在距离观察最近的平面内的受限集中找到解决方案。

    在这种情况下,观察和解之间的向量不再垂直于 te 平面,也不再垂直于回归量。

    但是,仍然存在某种垂直关系,即残差向量在某种意义上垂直于圆的边缘(或任何其他由正则化定义的表面)

最小二乘与正则化

型号y^

我们的模型给出了观测值的估计,y^, 作为参数函数的观测值βi.

y^=f(β)

在我们的图像中,这是一个有两个参数的线性函数β0β1

(您当然可以将其推广到大量的系数和观察值,为简单起见,我们考虑三个观察值和两个系数,以便我们可以绘制它)

[y^1y^2y^3]=β0[111]+β1[012]

由该线性和定义的模型的可能解决方案由图像中的红色平面表示。

请注意,图像中的这个平面与可能的解决方案有关yi=β0+β1xi, 什么时候[x1,x2,x3]=[0,1,2]. 所以我们绘制了所有可能的空间yi(这是一个 3D 空间,更一般地说是一个 n 维空间),模型允许的可能解决方案是该空间内的一个平面。

用最小二乘法找到最佳模型

该模型允许模型跨越的平面中的任何解决方案(在图像中这是 2D 红色平面,通常这可以是更高维度的平面,也不需要是线性的)。

最小二乘法将选择“解决方案”y^=β^0+β^1x1就残差的平方而言,它具有最小的差异。

在几何术语中,这等于在平面中找到与观测值具有最小欧几里得距离的点。当残差向量与平面正交时,实现了最小差异。

使用岭回归(或其他正则化)找到最佳模型

当我们应用惩罚时,这类似于应用一些约束,例如“向量的总和不能超过某个值”。在图像中,这由紫色绘图表示。

解决方案仍然在平面内,但也在圆内。现在估计解仍然是表示解空间和观测值之间的最短距离。但最优解不再是在红色平面上的正交投影。相反,它缩短了到紫色圆圈的距离。

用几何术语思考:OLS 拟合是Y在由柱子跨越的空间上X,因此残差向量与该空间正交。如果您进行正则化、执行岭回归或其他方式,您通常会将您的拟合从投影移开并破坏正交性。

Seber,GAF线性回归分析,Wiley是我从中学到的大部分内容并且(在我看来)难以超越的一本书。我用了ca。1980年版,但有更新的版本。如果可以,请获取一份副本。

一种推导最小二乘估计的方法β(回归系数的向量)是它是唯一的值β (*) 这将使误差向量与每个预测变量正交,因此与预测变量的线性组合正交,这就是预测值y^是。例如,参见这些课程笔记的第 2 节

从这个角度来看,我们可以看到,任何估计β除了最小二乘估计(*)之外——例如,任何已在某种程度上正则化为 0 的估计——将不具有此正交性属性。

(*) 除了β^=0, 这导致y^=0,它总是与任何其他向量正交