进行 CCA 与使用 PCA 构建因变量然后进行回归

机器算法验证 回归 多重回归 主成分分析 典型相关
2022-03-25 00:20:19

给定两个多维数据集XY ,一些人通过使用主成分分析(PCA)Y构建代理因变量来执行多变量分析。也就是说,在Y集上运行 PCA,沿第一个分量y'获取分数,然后在X上运行这些分数的多元回归y' = \beta X+\epsilon(我的问题基于这篇文章)。 YyXy=βX+ϵ

对我来说,这看起来像是两个数据集之间某种掺假形式的典型相关分析(CCA)。但是没有这方面的背景,我不能指望它。所以我的问题是,与 CCA 相比,PCA+回归分析的优缺点是什么?

直觉说 CCA 在这里应该更合理,因为(我相信)它构建规范变量不是为了盲目地最大化解释方差,而是已经考虑到最大化与X的相关性的最终目的。我对吗?


参考文献:Mei et al., 2010, 代谢综合征成分遗传关联研究的基于主成分的多元回归

1个回答

这是一个很好的问题,但从它看来,您知道 PCA 和 CCA 是一笔交易,因此您可以自己回答。你也是:

[CCA] 构建规范变量不是为了盲目地 [wrt X 的存在] 最大化解释方差 [in Y],而是已经考虑到最大化与 X 的相关性的最终目的。

绝对真实。第一个 Y 的 PC 与 X 集的相关性几乎总是弱于第一个 Y 的 CV 与它的相关性。从比较 PCA 和 CCA 动作的图片中可以明显看出这一点。

您设想的 PCA + 回归是两步的,最初是“无监督”(如您所说的“盲目”)策略,而 CCA 是一步“监督”策略。两者都是有效的 - 每个都在自己的调查环境中!

在集合 Y 的 PCA 中获得的第一个主成分 (PC1)是 Y 变量的线性组合。从集合Y 和 X 的 CCA 中的集合 Y中提取的第一规范变量 (CV1)也是 Y 变量的线性组合。但它们是不同的。(浏览链接的图片,还要注意 CCA 更接近 - 实际上是一种形式 - 回归而不是 PCA。)

PC1表示集合Y它是集合 Y 中的线性总结和“副手”,用于稍后面对外部世界的关系(例如在随后的 PC1 通过变量 X 回归时)。

CV1表示集合Y 的集合X。它是X属于Y的线性图像,Y中的“内部人”。YX关系已经存在:CCA是一个多元回归。

假设我有一个儿童样本在学校焦虑问卷(例如菲利普斯测试)上的结果 - Y 项目,以及他们在社会适应问卷上的结果 - X 项目。我想建立两个集合之间的关系。X 内部和 Y 内部的项目相互关联,但它们完全不同,我不喜欢在任何一组中直接将项目分数总结为单个分数的想法,所以我选择保持多元。

如果我对 Y 进行PCA,提取 PC1,然后回归 X 项,这意味着什么?这意味着我尊重焦虑问卷(Y项目)作为现象的主权(封闭)领域,它可以表达自己。通过发布代表整个集合 Y 的最佳加权项目总和(考虑最大方差)来表达 - 它的一般因素/枢轴/趋势,“主流学校焦虑症”,PC1。在表征形成之前,我才转向下一个问题,它与社会适应有何关系,我将在回归中检查这个问题。

如果我做CCAY vs X,提取第一对规范变量 - 每个集合中的一个 - 具有最大相关性,这是什么意思?这意味着我怀疑焦虑和适应之间(背后)的共同因素使它们相互关联。但是,我没有理由或理由通过 PCA 或组合集“X 变量 + Y 变量”的因子分析来提取或建模该因子(因为,例如,我认为焦虑和适应在概念上是两个完全不同的领域,或者因为这两个问卷有非常不同的尺度(单位)或不同形状的分布,我害怕“合并”,或者其中的项目数量非常不同)。我会满足于集合之间的规范相关性。或者我可能不会假设这些集合背后有任何“共同因素”,并简单地认为“X影响Y”。由于 Y 是多元的,因此效果是多维的,我要求的是一阶最强的效果。它由第一个典型相关给出,对应的预测变量是集合 Y 的 CV1。CV1 是从 Y 中捞出来的,Y 不是selbständig它的生产者。