不久前,R-help 邮件列表上的一位用户询问了在回归中使用 PCA 分数的合理性。用户正在尝试使用一些 PC 分数来解释另一台 PC 的变化(请参阅此处的完整讨论)。答案是不,这不合理,因为 PC 彼此正交。
有人可以更详细地解释为什么会这样吗?
不久前,R-help 邮件列表上的一位用户询问了在回归中使用 PCA 分数的合理性。用户正在尝试使用一些 PC 分数来解释另一台 PC 的变化(请参阅此处的完整讨论)。答案是不,这不合理,因为 PC 彼此正交。
有人可以更详细地解释为什么会这样吗?
主成分是所有因素 (X) 的加权线性组合。
示例:PC1 = 0.1X1 + 0.3X2
每个因素都有一个组成部分(尽管通常会选择一小部分)。
通过设计,这些组件的创建使得它们具有零相关性(正交)。
因此,组件 PC1 不应解释组件 PC2 的任何变化。
您可能希望对 Y 变量和 X 的 PCA 表示进行回归,因为它们不会具有多重共线性。然而,这可能很难解释。
如果您的 X 多于观察值,这会破坏 OLS,您可以对组件进行回归,并简单地选择较少数量的最高变异组件。
Jollife 的《主成分分析》是一本关于该主题的非常深入且被高度引用的书
这也很好: http: //www.statsoft.com/textbook/principal-components-factor-analysis/
根据定义,主成分是正交的,因此任何一对 PC 都将具有零相关性。
但是,如果存在大量解释变量,则可以在回归中使用 PCA。这些可以减少到少量的主成分,并用作回归中的预测变量。
小心……仅仅因为 PC 的构造相互正交并不意味着没有模式或一台 PC 似乎无法“解释”其他 PC 的某些事情。
考虑 3D 数据 (X,Y,Z) 描述均匀分布在美式足球表面上的大量点(对于那些从未看过美式足球的人来说,它是一个椭圆体,而不是球体)。想象足球处于任意配置中,因此 X、Y 和 Z 都不沿足球的长轴。
主成分将 PC1 放置在足球的长轴上,该轴描述了数据中最大的差异。
对于沿足球长轴在 PC1 维度中的任何点,由 PC2 和 PC3 表示的平面切片应该描述一个圆,该圆形切片的半径取决于 PC1 维度。确实,PC2 或 PC3 在 PC1 上的回归应该在全局范围内给出零系数,但不是在足球的较小部分......而且很明显,PC1 和 PC2 的 2D 图将显示一个“有趣”的限制边界即二值、非线性和对称。
如果你的数据是高维和嘈杂的,并且你没有大量的样本,你就会遇到过拟合的危险。在这种情况下,使用 PCA(可以捕获数据方差的主要部分;正交性不是问题)或因子分析(可以找到数据背后的真正解释变量)来降低数据维数,然后用他们训练一个回归模型。
对于基于因子分析的方法,请参阅本文贝叶斯因子回归模型,以及该模型的非参数贝叶斯版本,该模型不假设您先验地 知道相关因子(或 PCA 情况下的主成分)的“真实”数量。
我要补充一点,在许多情况下,监督降维(例如,Fisher Discriminant Analysis)可以比基于简单 PCA 或 FA 的方法进行改进,因为您可以在进行降维时利用标签信息。