PCA 两次发现一个变量是最重要的

机器算法验证 主成分分析 解释
2022-03-20 20:37:18

假设我有一个包含三个变量的数据集,钙、铁和铀。

假设我运行 PCA 并获得以下主要成分:

PC1PC2PC3Calcium0.67290.10210.6771Iron0.53310.25540.5402Uranium0.11230.80070.0432

第一个 PC 显示钙具有最大的重要性,铁是第二高的相关性。第二个 PC 显示铀具有最大的相关性。但是,第三个 PC 再次表示钙与响应的相关性最大,其次是铁。

我的主要问题是如何解释这样的 PCA 结果。说钙是对方差最具解释性的变量,同时也是方差的第三大解释变量,这毫无意义。

3个回答

您对 PCA 组件的解释不正确。

PCA 不会告诉您哪些变量对数据的变化最大,所以像这样的语句

钙是最能解释方差的变量,也是方差的第三大解释变量。

不能从 PC 分析中得出。

确实说的是由矢量确定的方向

PC1Calcium0.6729Iron0.5331Uranium0.1123

是数据变化最大的原因。该方向是由各个变量确定的方向的组合。这种方向的混合是 PCA 的基础,它不能撤消或忽略。

进一步的主成分被反复解释,它们解释了数据在与先前 PC 方向正交的方向上的最大变化。

您没有正确解释 PCA。PCA 为您的数据找到了全新的基础。这类似于基础的变化:https ://www.math.hmc.edu/calculus/tutorials/changebasis/但我们选择了一个特定的基础

新的基础不是任意的:向量是根据它们占多少变化来选择的。也就是说,PC1“指向变异最大的方向”

仅仅因为 PC1 和 PC3 的主要成分(矢量投影)在钙的方向上,我们不能说钙是最“重要的”(不管这意味着什么!)。

了解线性代数:

根据线性代数定律,所有主成分相互正交,任何给定特征值的解释方差量 E_p 是E_p/(sum(E_i)其中 sum(E_i) 是所有特征值的总和

最后,这是关于 PCA 的一个很好的讨论:Making sense of principal component analysis, eigenvectors & eigenvalues

相关性与具有最大方差的线性组合不同,这是 PCA 发现的。

特征向量也没有特定的方向。您可以将它们与1并且这些向量也将是具有相同特征值(方差)的特征向量,然后你会得到正+0.677对于第三个组件。

如果您想要相关性,也许您可​​以查看典型相关分析 ( CCA )。