PCA 去相关变量

机器算法验证 相关性 主成分分析
2022-04-06 08:30:20

我有 2 个要去相关的变量。有人告诉我我可以使用 PCA 来做到这一点。我对数据进行了 PCA 并获得了所有参数。现在如何获得与第二个变量不再相关的新转换数据集?我想用这个集合做进一步的分析。谢谢,

3个回答

只有两个变量XY,有两个样本方差s2t2,分别和样本相关系数,r. 如果您以通常的方式标准化变量以获得单位方差,那么ξ=X/sη=Y/t, 那么两个主成分是

PC1=ξ+η=X/s+Y/t,PC2=ξη=X/sY/t.

作为检查,请注意 Covar(PC1,PC2) = 变量(X/s) - 变量(Y/t) =11=0,证明组件是正交的(不相关的)。

视觉上:当您绘制散点图时XY其中坐标轴以标准单位表示,纵横比为 1:1,然后点云的轴沿着平行于X=YX=Y.

散点图

在这个例子中,方差是s2=0.98,t2=7.90并且相关性是r=0.67. 因为XY在具有单位纵横比的标准化比例尺上绘制,云的长轴是对角线(向下,由于负相关)。这是第一个主成分,X/sY/t. 云的短轴也是对角线(向上)并形成第二个主成分,X/s+Y/t.

它因您的软件而异,但您应该有类似组件得分矩阵的东西。将其与您的原始变量相乘以获得新的转换数据集。

您已经加载了每个组件(P1、P2、....Pi)。

P1=l1x1+l2x2+...+ljxj
P2=l1x1+l2x2+...+ljxj
.
.
Pi=l1x1+l2x2+...+ljxj

在哪里x是原始数据和Pi是旋转组件。重要的是载荷(l1,l2,...,lj)。如果您将它们与原始数据结合起来,那么您将获得旋转的 Principle 组件。有关更多信息,请查看此URL