每个 PCA 或 PLS 组件是否只是原始变量之一?

机器算法验证 回归 主成分分析 特征选择 降维 偏最小二乘法
2022-03-29 16:44:14

我对 PCA 和 PLS 中的组件是什么感到困惑。

组件是否只是原始变量,但不一定顺序相同?

例如,在 PCA 中,如果我的数据中有 8 个变量,PC1 会对应 8 个变量之一吗?在 PLSR(PLS 回归)中,如果我使用 4 个组件,这是否意味着我将使用 8 个变量中的 4 个来构建模型?

1个回答

正如@amoeba 在评论中指出的那样,这里可能的混淆是变量选择和降维之间的区别

PCA 和 PLS 都旨在降低问题的维数。如果您在每个案例上测量了 8 个变量(并且您有超过 8 个案例),那么原始维度为 8。PCA 和 PLS 帮助您选择较少数量的维度,以使其足够好。

但是这些程序不能通过从您原来的 8 个变量中选择子集来工作。相反,他们构建了 8 个变量的线性组合以生成新的 8 个预测变量集,然后决定需要在最终模型中包含多少这些新组合。对于 PCA 或 PLS,这些新的预测变量被设计为相互正交(垂直的多维等效项)。如果预测变量之间存在相关性,那么即使最终维度为 4,您的所有 8 个原始变量也可能在某种程度上被包含在内。因此,您通常不会在其中执行全有或全无选择你的原始变量。你只是摆脱了它们的一些不太重要的组合。

PCA 只是检查预测变量本身,首先找到捕获预测变量中最大方差的组合,然后找到捕获下一个最多方差的(正交)组合,依此类推。在这个评价很高的页面上有几个关于它是如何工作的极好的解释

PLS 在这种类型的方案中包括预测变量与结果变量的关系。在每个步骤中,它会找到与所有先前组合正交的预测变量组合,该组合使预测变量的方差乘以与结果变量的相关性平方的乘积最大化。(参见ESLII,等式 3.64,第 81 页)。对于第一步,这是一个线性组合,由每个变量与结果的个体相关性加权(与标准多元回归不同,其中所有变量都被考虑在一起)。PLS 还给出了一组正交预测变量,由原始变量的线性组合组成,尽管与 PCA 提供的不同。

在任一过程中,都会决定要包含多少这些新预测变量,从而确定最终维度。在任何一种情况下,如果您包含所有新的预测变量,您只需返回原始的多元回归。

另外,请注意,上述假设首先对预测变量进行了标准化,因此变量尺度的差异无关紧要。