PCA 在多重共线性下不稳定吗?

机器算法验证 主成分分析 多重共线性
2022-02-02 06:11:53

我知道在回归情况下,如果您有一组高度相关的变量,这通常是“坏的”,因为估计系数的不稳定性(当行列式趋向零时,方差趋向无穷大)。

我的问题是这种“坏处”是否会在 PCA 情况下持续存在。当协方差矩阵变得奇异时,任何特定 PC 的系数/负载/权重/特征向量是否变得不稳定/任意/非唯一?我对只保留第一个主成分而所有其他成分都被视为“噪音”或“其他东西”或“不重要”的情况特别感兴趣。

我认为不会,因为您将只剩下一些零方差或接近零方差的主成分。

很容易看出,在具有 2 个变量的简单极端情况下,情况并非如此——假设它们完全相关。然后第一个 PC 将是精确的线性关系,第二个 PC 将与第一个 PC 垂直,所有观测值的所有 PC 值都为零(即零方差)。想知道它是否更一般。

2个回答

答案可能会用更简单的术语给出:如果从线性代数的角度来看,多元回归比 pca 多一步,从第二步开始,不稳定性就存在了:

pca和mult的第一步。回归可以看作是相关矩阵的分解R分为两个胆汁因素LLt,它们是三角形的 - 并且与低或高相关性无关。(然后可以将 pca 视为(三角形)cholesky 因子到 pc 位置的旋转(据我所知,这称为 Jacobi 旋转)

多。回归过程是应用该cholesky因子的反演L减去因变量的行和列,它方便地位于相关矩阵的最后一行。
不稳定性在这里起作用:如果自变量高度相关,则cholesky因子的对角线L 可以退化为非常小的数值 - 并将其反转引入然后除以近零的问题。

PCA 通常是达到目的的一种手段;导致多元回归的输入或用于聚类分析。我认为在您的情况下,您正在谈论使用 PCA 的结果来执行回归。

在这种情况下,您执行 PCA 的目标是消除多重共线性并获得多元回归的正交输入,这并不奇怪,这称为主成分回归。在这里,如果您的所有原始输入都是正交的,那么进行 PCA 将为您提供另一组正交输入。所以; 如果您正在执行 PCA,则会假设您的输入具有多重共线性。

鉴于上述情况,您可能希望通过 PCA 从具有多个输入的问题中获取一些输入变量。为了确定应该保留多少新的正交变量,通常使用碎石图(Johnson & Wichern, 2001, p. 445)。如果你有大量的观察,那么你也可以使用经验法则λi^作为ith最大估计特征值仅使用最多并包括那些值λi^p大于或等于一 (Johnson & Wichern, 2001, p. 451)。

参考

强生公司 (2001)。应用多元统计分析(第 6 版)。普伦蒂斯霍尔。