我试图了解执行如下主成分分析的输出:
> head(iris)
Sepal.Length Sepal.Width Petal.Length Petal.Width Species
1 5.1 3.5 1.4 0.2 setosa
2 4.9 3.0 1.4 0.2 setosa
3 4.7 3.2 1.3 0.2 setosa
4 4.6 3.1 1.5 0.2 setosa
5 5.0 3.6 1.4 0.2 setosa
6 5.4 3.9 1.7 0.4 setosa
> res = prcomp(iris[1:4], scale=T)
> res
Standard deviations:
[1] 1.7083611 0.9560494 0.3830886 0.1439265
Rotation:
PC1 PC2 PC3 PC4
Sepal.Length 0.5210659 -0.37741762 0.7195664 0.2612863
Sepal.Width -0.2693474 -0.92329566 -0.2443818 -0.1235096
Petal.Length 0.5804131 -0.02449161 -0.1421264 -0.8014492
Petal.Width 0.5648565 -0.06694199 -0.6342727 0.5235971
>
> summary(res)
Importance of components:
PC1 PC2 PC3 PC4
Standard deviation 1.7084 0.9560 0.38309 0.14393
Proportion of Variance 0.7296 0.2285 0.03669 0.00518
Cumulative Proportion 0.7296 0.9581 0.99482 1.00000
>
我倾向于从上面的输出中得出以下结论:
方差的比例表示特定主成分的方差中有多少总方差。因此,PC1 变异性解释了数据总方差的 73%。
显示的旋转值与某些描述中提到的“载荷”相同。
考虑到PC1的旋转,可以得出Sepal.Length、Petal.Length和Petal.Width是直接相关的,并且它们都与Sepal.Width负相关(在PC1的旋转中具有负值)
植物中可能存在一个因素(一些化学/物理功能系统等),它可能会影响所有这些变量(一个方向的萼片长度、花瓣长度和花瓣宽度,相反方向的萼片宽度)。
如果我想在一张图中显示所有旋转,我可以通过将每个旋转乘以该主成分的方差比例来显示它们对总变化的相对贡献。例如,对于 PC1,0.52、-0.26、0.58 和 0.56 的旋转都乘以 0.73(PC1 的比例方差,显示在 summary(res) 输出中。
我对上述结论是否正确?
关于问题 5 的编辑:我想在一个简单的条形图中显示所有旋转,如下所示:
由于 PC2、PC3 和 PC4 对变化的贡献越来越小,在那里调整(减少)变量的负载是否有意义?