假设我有一个包含三个变量的数据集,钙、铁和铀。
假设我运行 PCA 并获得以下主要成分:
第一个 PC 显示钙具有最大的重要性,铁是第二高的相关性。第二个 PC 显示铀具有最大的相关性。但是,第三个 PC 再次表示钙与响应的相关性最大,其次是铁。
我的主要问题是如何解释这样的 PCA 结果。说钙是对方差最具解释性的变量,同时也是方差的第三大解释变量,这毫无意义。
假设我有一个包含三个变量的数据集,钙、铁和铀。
假设我运行 PCA 并获得以下主要成分:
第一个 PC 显示钙具有最大的重要性,铁是第二高的相关性。第二个 PC 显示铀具有最大的相关性。但是,第三个 PC 再次表示钙与响应的相关性最大,其次是铁。
我的主要问题是如何解释这样的 PCA 结果。说钙是对方差最具解释性的变量,同时也是方差的第三大解释变量,这毫无意义。
您对 PCA 组件的解释不正确。
PCA 不会告诉您哪些变量对数据的变化最大,所以像这样的语句
钙是最能解释方差的变量,也是方差的第三大解释变量。
不能从 PC 分析中得出。
它确实说的是由矢量确定的方向
是数据变化最大的原因。该方向是由各个变量确定的方向的组合。这种方向的混合是 PCA 的基础,它不能撤消或忽略。
进一步的主成分被反复解释,它们解释了数据在与先前 PC 方向正交的方向上的最大变化。
您没有正确解释 PCA。PCA 为您的数据找到了全新的基础。这类似于基础的变化:https ://www.math.hmc.edu/calculus/tutorials/changebasis/但我们选择了一个特定的基础
新的基础不是任意的:向量是根据它们占多少变化来选择的。也就是说,PC1“指向变异最大的方向”
仅仅因为 PC1 和 PC3 的主要成分(矢量投影)在钙的方向上,我们不能说钙是最“重要的”(不管这意味着什么!)。
了解线性代数:
根据线性代数定律,所有主成分相互正交,任何给定特征值的解释方差量 E_p 是E_p/(sum(E_i)其中 sum(E_i) 是所有特征值的总和
最后,这是关于 PCA 的一个很好的讨论:Making sense of principal component analysis, eigenvectors & eigenvalues
相关性与具有最大方差的线性组合不同,这是 PCA 发现的。
特征向量也没有特定的方向。您可以将它们与并且这些向量也将是具有相同特征值(方差)的特征向量,然后你会得到正对于第三个组件。
如果您想要相关性,也许您可以查看典型相关分析 ( CCA )。