解读 PCA 分数

机器算法验证 主成分分析
2022-02-09 03:59:18

谁能帮我解释 PCA 分数?我的数据来自一份关于对熊的态度的问卷。根据负载,我将我的主要组成部分之一解释为“对熊的恐惧”。该主成分的分数是否与每个受访者如何衡量该主成分有关(他/她的得分是正面还是负面)?

3个回答

基本上,因子得分计算为由因子载荷加权的原始响应。因此,您需要查看第一个维度的因子负载,以了解每个变量与主成分的关系。观察到与特定变量相关的高正(或负)负荷意味着这些变量对该组件有正(或负)贡献;因此,在这些变量上得分高的人往往在这个特定维度上有更高(或更低)的因子得分。

绘制相关圆有助于大致了解对第一个主轴做出“正面”与“负面”(如果有的话)贡献的变量,但如果您使用 R,您可以查看FactoMineR包和dimdesc()功能

以下是数据示例USArrests

> data(USArrests)
> library(FactoMineR)
> res <- PCA(USArrests)
> dimdesc(res, axes=1)  # show correlation of variables with 1st axis
$Dim.1
$Dim.1$quanti
         correlation  p.value
Assault        0.918 5.76e-21
Rape           0.856 2.40e-15
Murder         0.844 1.39e-14
UrbanPop       0.438 1.46e-03
> res$var$coord  # show loadings associated to each axis
         Dim.1  Dim.2  Dim.3   Dim.4
Murder   0.844 -0.416  0.204  0.2704
Assault  0.918 -0.187  0.160 -0.3096
UrbanPop 0.438  0.868  0.226  0.0558
Rape     0.856  0.166 -0.488  0.0371

从最新结果可以看出,第一维度主要反映(任何形式的)暴力行为。如果我们查看个别地图,很明显位于右侧的州是此类行为最频繁的州。

替代文字 替代文字

您可能还对这个相关问题感兴趣:什么是主成分分数?

对我来说,PCA 分数只是以一种允许我用更少变量解释数据集的形式重新排列数据。分数表示每个项目与组件的相关程度。您可以根据因子分析命名它们,但重要的是要记住它们不是潜在变量,因为 PCA 分析数据集中的所有方差,而不仅仅是共同持有的元素(如因子分析所做的那样)。

PCA 结果(不同的维度或组件)通常无法转化为真实的概念,我认为假设其中一个组件是“对熊的恐惧”是错误的,是什么导致您认为这就是组件的含义?主成分过程将您的数据矩阵转换为具有相同或更少维度的新数据矩阵,并且生成的维度范围从能够更好地解释方差的维度到能够解释方差的维度。该分量是基于原始变量与计算的特征向量的组合来计算的。总体 PCA 过程确实将原始变量转换为正交变量(线性独立)。希望这可以帮助您澄清一点关于 pca 程序