这是一个很好的问题,但从它看来,您知道 PCA 和 CCA 是一笔交易,因此您可以自己回答。你也是:
[CCA] 构建规范变量不是为了盲目地 [wrt X 的存在] 最大化解释方差 [in Y],而是已经考虑到最大化与 X 的相关性的最终目的。
绝对真实。第一个 Y 的 PC 与 X 集的相关性几乎总是弱于第一个 Y 的 CV 与它的相关性。从比较 PCA 和 CCA 动作的图片中可以明显看出这一点。
您设想的 PCA + 回归是两步的,最初是“无监督”(如您所说的“盲目”)策略,而 CCA 是一步“监督”策略。两者都是有效的 - 每个都在自己的调查环境中!
在集合 Y 的 PCA 中获得的第一个主成分 (PC1)是 Y 变量的线性组合。从集合Y 和 X 的 CCA 中的集合 Y中提取的第一规范变量 (CV1)也是 Y 变量的线性组合。但它们是不同的。(浏览链接的图片,还要注意 CCA 更接近 - 实际上是一种形式 - 回归而不是 PCA。)
PC1表示集合Y。它是集合 Y 中的线性总结和“副手”,用于稍后面对外部世界的关系(例如在随后的 PC1 通过变量 X 回归时)。
CV1表示集合Y 内的集合X。它是X属于Y的线性图像,Y中的“内部人”。YX关系已经存在:CCA是一个多元回归。
假设我有一个儿童样本在学校焦虑问卷(例如菲利普斯测试)上的结果 - Y 项目,以及他们在社会适应问卷上的结果 - X 项目。我想建立两个集合之间的关系。X 内部和 Y 内部的项目相互关联,但它们完全不同,我不喜欢在任何一组中直接将项目分数总结为单个分数的想法,所以我选择保持多元。
如果我对 Y 进行PCA,提取 PC1,然后回归 X 项,这意味着什么?这意味着我尊重焦虑问卷(Y项目)作为现象的主权(封闭)领域,它可以表达自己。通过发布代表整个集合 Y 的最佳加权项目总和(考虑最大方差)来表达 - 它的一般因素/枢轴/趋势,“主流学校焦虑症”,PC1。在表征形成之前,我才转向下一个问题,它与社会适应有何关系,我将在回归中检查这个问题。
如果我做CCAY vs X,提取第一对规范变量 - 每个集合中的一个 - 具有最大相关性,这是什么意思?这意味着我怀疑焦虑和适应之间(背后)的共同因素使它们相互关联。但是,我没有理由或理由通过 PCA 或组合集“X 变量 + Y 变量”的因子分析来提取或建模该因子(因为,例如,我认为焦虑和适应在概念上是两个完全不同的领域,或者因为这两个问卷有非常不同的尺度(单位)或不同形状的分布,我害怕“合并”,或者其中的项目数量非常不同)。我会满足于集合之间的规范相关性。或者我可能不会假设这些集合背后有任何“共同因素”,并简单地认为“X影响Y”。由于 Y 是多元的,因此效果是多维的,我要求的是一阶最强的效果。它由第一个典型相关给出,对应的预测变量是集合 Y 的 CV1。CV1 是从 Y 中捞出来的,Y 不是selbständig它的生产者。