两个相同数据集之间的 CCA 是否等同于该数据集上的 PCA?

机器算法验证 主成分分析 多元分析 典型相关
2022-03-29 00:47:24

阅读有关两个随机向量的典型相关分析 (CCA) 的维基百科XY,我想知道主成分分析(PCA)是否与CCA相同X=Y?

1个回答

Xn×p1Yn×p2数据矩阵,表示两个数据集n样本(即对随机行向量的观察XY) 在他们每个人中。

CCA 寻找一个线性组合p1变量X和线性组合p2变量Y使它们彼此之间具有最大的相关性;然后它在与第一对零相关的约束下寻找下一对;等等

如果X=Y(和p1=p2=p),一个数据集中的任何线性组合都将具有相关性1在另一个数据集中具有相同的线性组合。所以所有的 CCA 对都会有相关性1, 对的顺序是任意的。唯一剩下的限制是线性组合之间应该是不相关的。有无数种方式可供选择p相关的线性组合(请注意,权重在p维空间),它们中的任何一个都将产生一个有效的 CCA 解决方案。PCA 确实给出了一种这样的方法,因为任何两个 PC 的相关性为零。

所以 PCA 解决方案确实是一个有效的 CCA 解决方案,但在这种情况下,有无数个等价的好 CCA 解决方案。


在数学上,CCA 寻找正确的 (a) 走了 (b) 的奇异向量CXX1/2CXYCYY1/2, 在这种情况下等于I,任何向量都是特征向量。所以a=b可以是任意的。然后 CCA 获得线性组合权重为CXX1/2aCYY1/2b. 在这种情况下,它归结为采用任意基础并将其转换为CXX1/2确实会产生不相关的方向