载荷(不应与特征向量混淆)具有以下属性:
- 它们在每个分量内的平方和是特征值(分量的方差)。
- 载荷是线性组合的系数,通过(标准化)分量预测变量。
您从 4 台 PC 中提取了 2 台第一台 PC。 负载矩阵A和特征值:
A (loadings)
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
Eigenvalues:
1.0000000000 1.0000000000
在这种情况下,两个特征值相等。这是现实世界中罕见的情况,它说PC1和PC2具有相同的解释“强度”。
假设您还计算了组件值,Nx2
矩阵C,并且您在每列中对它们进行 z 标准化(平均值 = 0,标准开发 = 1)。然后(如上面第 2 点所说),X^=CA′. 但是,因为您在 4 台 PC 中只剩下 2 台(您在A) 恢复的数据值X^不准确, - 存在错误(如果特征值 3、4 不为零)。
好的。通过变量预测组件的系数是多少?显然,如果A满了4x4
,这些是B=(A−1)′. 对于非方形加载矩阵,我们可以将它们计算为B=A⋅diag(eigenvalues)−1=(A+)′,其中diag(eigenvalues)
是对角线方阵,特征值在其对角线上,+
上标表示伪逆矩阵。在你的情况下:
diag(eigenvalues):
1 0
0 1
B (coefficients to predict components by original variables):
PC1 PC2
X1 .5000000000 .5000000000
X2 .5000000000 .5000000000
X3 .5000000000 -.5000000000
X4 .5000000000 -.5000000000
因此,如果X是Nx4
原始中心变量(或标准化变量,如果您基于相关性而不是协方差进行 PCA)的矩阵,则C=XB;C是标准化的主成分分数。在您的示例中是:
PC1 = 0.5*X1 + 0.5*X2 + 0.5*X3 + 0.5*X4 ~ (X1+X2+X3+X4)/4
“第一部分与平均分成正比”
PC2 = 0.5*X1 + 0.5*X2 - 0.5*X3 - 0.5*X4 = (0.5*X1 + 0.5*X2) - (0.5*X3 + 0.5*X4)
“第二部分测量第一对分数和第二对分数之间的差异”
在这个例子中,看起来B=A,但在一般情况下它们是不同的。
注意:上述系数计算组件分数的公式,B=A⋅diag(eigenvalues)−1, 等价于B=R−1A, 和R是变量的协方差(或相关)矩阵。后一个公式直接来自线性回归理论。这两个公式仅在 PCA 上下文中是等效的。在因子分析中,它们不是,并且计算因子分数(在 FA 中总是近似的)应该依赖于第二个公式。
我的相关回答:
有关 loading 与 eigenvectors 的更详细信息。
如何计算主成分分数和因子分数。