如果使用所有 PC,PCA 是否提供优势?

机器算法验证 回归 主成分分析 特征选择
2022-03-22 05:41:20

这个问题基本上在标题中说明了。如果以后使用所有主成分,主成分分析是否会提供优势?在我正在查看的应用程序中,PCA 是在简单回归之前进行的。作者声称,如果所有 PC 都包含在回归中,则结果将等同于原始特征集上的 OLS。这是真的?

2个回答

PC 只是原始特征的线性组合。例如,如果有两个特征,xy,在 PC 上映射的功能将类似于f1=α1x+β1y, 和f2=α2x+β2y. 所以,这只是轴的变化。

在普通的线性回归中,目标变量用特征的线性组合来表示,即y=ax+by+k. 使用作为旧特征线性组合的新特征将生成等效方程。例如,对于两个功能,这将如下所示:

y=cf1+df2+k=c(α1x+β1y)+d(α2x+β2y)+k=(cα1+dα2)ax+(cβ1+dβ2)by+k

OLS 就是这种情况,但总的来说,使用所有 PC 有优势吗?也许。拥有正交轴对于您将执行的下游分析可能是最重要的,具体取决于您所追求的,因此将其推广到所有 ML 是不可能的。

@gunes 在不受惩罚的普通最小二乘模型方面是正确的(+1)。然而,在一种情况下,PCA 可能被认为“在使用所有 PC 时提供优势”,即使在线性回归建模中也是如此。

正如 James 等人在ISLR的第 6.3.1 节中解释的那样,主成分回归 (PCR) 仅选择 PC 的子集,即成分的全或全 1/0 加权第 6 章还介绍了岭回归作为一种“收缩”或惩罚方法。James 等人随后比较了这些方法(第 236 页):

甚至可以将岭回归视为 PCR 的连续版本

也就是说,岭回归使用所有 PC,但赋予它们不同的非零权重,而不是 PCR 使用的全有或全无 PC 选择。ESL的第 79 页有更多详细信息。从这个意义上说,岭回归确实使用了所有 PC,只是不均等。但这不是您问题意义上的PCR。