如何解释 pca 的加载值?

数据挖掘 r 数据集 主成分分析
2021-10-06 17:36:19

想象一下,我有以下矩阵,它给出了德语、哲学、数学和物理科目学生的成绩:

ger = c(2,4,1,3,2,4,4,1,2,3)
phi = c(3,4,1,2,2,3,3,2,2,2)
mat = c(1,3,2,4,1,2,2,4,3,1)
phy = c(2,2,2,5,2,2,3,4,3,3)
A = cbind(ger,phi,mat,phy)

我将所有内容组合成一个矩阵并缩放数据:

As = scale(A)

现在,我summary 在 PCA 上执行:

summary(princomp(As), loadings = TRUE)

它返回以下输出:

Importance of components:
                       Comp.1    Comp.2     Comp.3     Comp.4
Standard deviation     1.3257523 1.1657791 0.59600603 0.35793402
Proportion of Variance 0.4882275 0.3775114 0.09867311 0.03558799
Cumulative Proportion  0.4882275 0.8657389 0.96441201 1.00000000

Loadings:
     Comp.1 Comp.2 Comp.3 Comp.4
ger  0.496 -0.502  0.519  0.482
phi  0.548 -0.443 -0.423 -0.570
mat  -0.430 -0.572 -0.546  0.435
phy  -0.518 -0.474  0.503 -0.503

我对第一个组件有一些提示(基于负载):

  • 德语和哲学之间存在高度正相关,数学和物理之间也存在高度正相关。
  • 谁擅长语言(德语和哲学)通常在 MINT(数学和物理)方面更差,反之亦然。

还有关于第二个的想法,我无法解释:

  • 它是所有四个变量的加权算术平均值。

但我不知道如何解释Comp. 2,Comp. 3Comp. 4基于负载。特别是因为 的所有值Comp. 2都是负数,或者具有相同的方向。有人能帮我吗?提前致谢!

1个回答

矩阵的列loadings是正交特征向量的基础。这是线性代数中的一个重要概念,如果您不熟悉,非常值得详细了解。但是为了这个答案的目的,它可以被理解为定义一个坐标系统。

对于每个学生,我们可以在四维空间中定义一个点(具体来说,在R4) 代表他们的成绩(在居中和归一化之后)。或者换一种说法,你可以把所有学生的成绩集合想象成一个具有四个垂直轴的四个维度的散点图。我们可以将这些轴定向到不同的方向(就像我们可以在二维或三个维度上一样)。最明显的选择是为每个对象设置一个轴,因此与从原点指向该点的单位向量共线的轴(1,0,0,0)用德语表示他们的等级,同样与向量共线的轴(0,1,0,0)代表他们在哲学中的等级,与向量共线的轴(0,0,1,0)表示他们在数学中的成绩,以及与向量共线的轴(0,0,0,1)代表他们在物理方面的成绩。

但是,没有理由期望我们的散点图最分散的方向(数据中最大方差的方向)将与这些轴之一对齐。PCA 挑选出一组新的轴,使一个轴与最大方差的方向对齐,另一个轴与第一个方向投影后剩余最大方差的方向对齐,依此类推。沿着这些新轴指向的单位向量(在原始坐标系中表示)是loadings矩阵中的列。

在这个特定示例的情况下,第一个主成分的加载向量沿着一个轴,该轴基本上表示他们是在数学和物理方面表现更好,还是在德语和哲学方面表现更好。第二个主成分的加载向量沿着一个轴,该轴基本上表达了他们总体上的好坏(因此向量的所有分量具有相同的符号和相似的大小)。您想知道所有四个分量上的负号 - 如果您熟悉特征向量,您就会知道通过整体符号更改向量的所有分量是无关紧要的。基本上,这与交换轴的哪一端我们称之为正端和我们称之为负端是一样的。

所以在这种情况下,前两个加载向量与我们许多人可能期望看到的非常接近。但即使在这个相当直观的示例中,您也不应该对后面的主成分的加载向量对您来说似乎不那么明显感到惊讶。那是因为这些仅解决了在我们预测出由前两个因素解释的方差之后仍然存在的方差。我们都可能知道擅长物理的学生往往擅长数学,但是我们中有多少人知道(例如)在控制了他们在物理方面的表现之后,那些在哲学方面也比德语更好的学生数学会更好吗?对于因果观察者来说,这些微妙的影响不如主要影响那么明显。

一旦你得到第四个主成分(四个中的一个)的加载向量,你真的不需要想知道为什么它具有它所具有的特定值。事实上,这个向量完全是由前三个决定的(直到不相关的整体符号)。这可以通过记住 PCA 在四维空间中挑选出四个垂直轴来理解——一旦指定了前三个轴,就剩下一个与所有轴垂直的可能选择。