原始变量和主成分之间的相关性

机器算法验证 r 相关性 主成分分析
2022-04-10 07:42:57

我正在查看此链接http://strata.uga.edu/8370/lecturenotes/principalComponents.html它说

在解释主成分时,了解原始变量与主成分的相关性通常很有用。变量的相关性Xi和主成分Yj

rij=aij2×var(Yj)/sii

在哪里aij是个i-th 在主成分上的可变主成分权重jYj是个j-th 主成分分数,我不确定是什么sii是。

我在下面的 iris 数据集上做了一个简单的 PCA,并想计算萼片宽度和长度与 PC 分数 1 和 PC 分数 2 的相关性,但是什么是sii?

var(Yj)是主成分得分的方差。我在VarofSCores下面的对象中有它。在那个链接中,作者说SY是分数的 varcov 矩阵,所以如果sii是对角线SY那么这与我在 中的值相同VarOfSCores

data(iris)
names(iris)
dat = data.frame(iris$Sepal.Width, iris$Sepal.Length)
pca= prcomp(dat)
PC = pca$rotation
VarOfScores = pca$sd^2
scores = pca$x

#correlation of sepal width to score 1
sqrt(PC[1,1]^2*  VarOfScores[1]/??   )

#correlation of sepal width to score 2
sqrt(PC[1,2]^2*  VarOfScores[2]/??   )

#correlation of sepal LENGTH to score 1
sqrt(PC[2,1]^2*  VarOfScores[1]/??   )

#correlation of sepal LENGTH to score 2
sqrt(PC[2,2]^2*  VarOfScores[2]/??   )

另外-为什么作者说“加载”而不是“主要组件”。特征向量是“主要成分”而不是“载荷”,特征向量的数据时间是“分数”。我认为这是一个糟糕的术语。请参阅此处 http://www.cs.princeton.edu/courses/archive/spr08/cos424/scribe_notes/0424.pdf其中作者在第 4 页“V”是主要成分。

2个回答

变量之间的相关系数Xi和主成分Yj是(谁)给的

r=vijstd(Yj)/std(Xi)=vijej/std(Xi),
在哪里vij是一个i-第一个元素j-协方差矩阵的第一个单位长度特征向量,ej=var(Yj)是给出此 PC 方差的相应特征值,并且std(Xi)是标准差Xi.

请参阅我对如何找到与第一个主成分最相关的变量的回答?推导和附加解释。注意vijej被称为“负载”Lij.

我认为您引用中的公式说明了同样的事情:aij是特征向量的元素,var(Yi)是各自的特征值,并且sii代表原始协方差矩阵的对角元素,即var(Xi).

关于术语,请参阅PCA 中的“主要组件”到底是什么?PCA 中的载荷与特征向量:何时使用一个或另一个?

与因子的相关性称为载荷。在 PCA 中,特征向量可以进行不同的缩放,但如果归一化为它们的特征值,它们就是负载(如果有记忆的话)。对于其他类型的因子分析,载荷和因子可能不同,但载荷总是指相关性。