机器算法验证 - 如果使用所有 PC，PCA 是否提供优势？ - 吾爱随笔录

如果使用所有 PC，PCA 是否提供优势？

机器算法验证回归主成分分析特征选择

2022-03-22 05:41:20

这个问题基本上在标题中说明了。如果以后使用所有主成分，主成分分析是否会提供优势？在我正在查看的应用程序中，PCA 是在简单回归之前进行的。作者声称，如果所有 PC 都包含在回归中，则结果将等同于原始特征集上的 OLS。这是真的？

2个回答

PC 只是原始特征的线性组合。例如，如果有两个特征， $x$ 和 $y$ ，在 PC 上映射的功能将类似于 $f_1=\alpha_1 x+\beta_1 y$ ，和 $f_2=\alpha_2x+\beta_2y$ . 所以，这只是轴的变化。

在普通的线性回归中，目标变量用特征的线性组合来表示，即 $y=ax+by+k$ . 使用作为旧特征线性组合的新特征将生成等效方程。例如，对于两个功能，这将如下所示：

\begin{aligned} y & = c f_{1} + d f_{2} + k = c (α_{1} x + β_{1} y) + d (α_{2} x + β_{2} y) + k \\ = \underset{a}{\underset{⏟}{(c α_{1} + d α_{2})}} x + \underset{b}{\underset{⏟}{(c β_{1} + d β_{2})}} y + k \end{aligned}

$\begin{align}y&=cf_1+df_2+k=c(\alpha_1x+\beta_1y)+d(\alpha_2x+\beta_2y)+k\\&=\underbrace{(c\alpha_1+d\alpha_2)}_ax + \underbrace{(c\beta_1+d\beta_2)}_by+k\end{align}$

OLS 就是这种情况，但总的来说，使用所有 PC 有优势吗？也许。拥有正交轴对于您将执行的下游分析可能是最重要的，具体取决于您所追求的，因此将其推广到所有 ML 是不可能的。

@gunes 在不受惩罚的普通最小二乘模型方面是正确的（+1）。然而，在一种情况下，PCA 可能被认为“在使用所有 PC 时提供优势”，即使在线性回归建模中也是如此。

正如 James 等人在ISLR的第 6.3.1 节中解释的那样，主成分回归 (PCR) 仅选择 PC 的子集，即成分的全或全 1/0 加权。第 6 章还介绍了岭回归作为一种“收缩”或惩罚方法。James 等人随后比较了这些方法（第 236 页）：

甚至可以将岭回归视为 PCR 的连续版本

也就是说，岭回归使用所有 PC，但赋予它们不同的非零权重，而不是 PCR 使用的全有或全无 PC 选择。ESL的第 79 页有更多详细信息。从这个意义上说，岭回归确实使用了所有 PC，只是不均等。但这不是您问题意义上的PCR。

其它你可能感兴趣的问题

上一篇神经网络的两个输出之间的一致性下一篇随机森林是否擅长检测交互项？