偏最小二乘法、降秩回归和主成分回归之间有什么联系?

机器算法验证 回归 主成分分析 降维 偏最小二乘法 降秩回归
2022-02-09 07:10:06

降秩回归和主成分回归只是偏最小二乘的特例吗?

本教程(第 6 页,“目标比较”)指出,当我们在不投影 X 或 Y 的情况下进行偏最小二乘法(即“不偏”)时,它相应地变为降秩回归或主成分回归。

在这个 SAS 文档页面,“降低等级回归”和“方法之间的关系”部分也有类似的声明。

一个更基本的后续问题是它们是否具有相似的潜在概率模型。

1个回答

这是三种不同的方法,不能将它们视为另一种的特例。

形式上,如果是居中预测()和响应()数据集,如果我们寻找第一对轴,对于,那么这些方法最大化以下数量:XYn×pn×qwRpXvRqY

PCA:Var(Xw)RRR:Var(Xw)Corr2(Xw,Yv)Var(Yv)PLS:Var(Xw)Corr2(Xw,Yv)Var(Yv)=Cov2(Xw,Yv)CCA:Var(Xw)Corr2(Xw,Yv)

(我在此列表中添加了典型相关分析 (CCA)。)


我怀疑这种混淆可能是因为在 SAS 中,所有三种方法似乎都是通过PROC PLS具有不同参数的相同函数实现的。因此,这三种方法似乎都是 PLS 的特殊情况,因为这就是 SAS 函数的命名方式。然而,这只是一个不幸的命名。实际上,PLS、RRR 和 PCR 是三种不同的方法,它们恰好在 SAS 中实现在一个函数中,由于某种原因被调用PLS

您链接到的两个教程实际上都非常清楚这一点。演示教程的第 6 页说明了所有三种方法的目标,并且没有说 PLS“变成”RRR 或 PCR,这与您在问题中声称的相反。同样,SAS 文档解释了三种不同的方法,给出了公式和直觉:

[P]主成分回归选择尽可能多地解释预测变量变化的因素,降秩回归选择尽可能多解释响应变量的因素,偏最小二乘法平衡两个目标,寻找解释响应变量和预测变量变化的因素.

SAS 文档中甚至有一个图显示了一个很好的玩具示例,其中三种方法给出了不同的解决方案。在这个玩具示例中,有两个预测变量以及一个响应变量中与最相关的方向恰好与中最大方差的方向正交。因此 PC1 与第一个 RRR 轴正交,PLS 轴介于两者之间。x1x2yXyX

PCR、PLS、RRR

可以向 RRR 损失函数添加岭惩罚,以获得岭降秩回归或 RRRR。这会将回归轴拉向 PC1 方向,有点类似于 PLS 正在做的事情。但是,RRRR 的成本函数不能写成 PLS 形式,因此它们保持不同。

请注意,当只有一个预测变量时,CCA = RRR = 通常回归。y