顶级主成分如何保持对因变量的预测能力(甚至导致更好的预测)?

机器算法验证 回归 分类 主成分分析 降维 正则化
2022-02-12 04:34:58

假设我正在运行回归为什么通过选择个主成分,模型保留了对的预测能力?YXkXY

我了解,从降维/特征选择的角度来看,如果是具有前的协方差矩阵的特征向量,则是前个主成分具有最大方差。据我所知,我们可以因此将特征数量减少到并保留大部分预测能力。v1,v2,...vkXkXv1,Xv2...Xvkkk

但是为什么前组件保留了对的预测能力?kY

如果我们谈论一般的 OLS,没有理由建议如果特征具有最大方差,则具有最大的预测能力YZZiZiY

看到评论后更新:我想我已经看到了大量使用 PCA 进行降维的示例。我一直假设这意味着我们剩下的维度具有最大的预测能力。否则降维的意义何在?

4个回答

实际上,不能保证顶级主成分 (PC) 比低方差的具有更强的预测能力。

在实际情况并非如此的情况下可以找到实际示例,并且很容易构建一个人工示例,例如只有最小的PC 与有任何关系。y

这个话题在我们的论坛上讨论了很多,并且(不幸)没有一个明确的规范线程,我只能给出几个链接,它们共同提供了各种现实生活以及人工示例:

和相同的主题,但在分类的背景下:


然而,在实践中,顶级 PC 通常确实比低方差的 PC 具有更高的预测能力,而且,仅使用顶级 PC 可以产生比使用所有 PC 更好的预测能力。

在有很多预测变量和相对较少的数据点的情况下(例如当甚至时),普通回归会过拟合并且需要正则化。主成分回归 (PCR) 可以看作是规范回归的一种方法,并且往往会给出更好的结果。此外,它与岭回归密切相关,岭回归是收缩正则化的标准方法。虽然使用岭回归通常是一个更好的主意,但 PCR 通常会表现得相当好。请参阅为什么收缩起作用?关于偏差-方差权衡以及收缩如何有益的一般性讨论。pnpnp>n

在某种程度上,可以说岭回归和 PCR都假设关于的大部分信息都包含在的大型 PC 中,并且这种假设通常是有根据的。yX

请参阅@cbeleites (+1) 稍后的回答,了解为什么这个假设通常是有道理的(以及这个较新的线程:降维几乎总是对分类有用吗?对于一些进一步的评论)。

哈斯蒂等人。统计学习的要素(第 3.4.1 节)中,在岭回归的背景下对此进行了评论:

[T] 小的奇异值 [...] 对应于的列空间中具有较小方差的方向,并且岭回归将这些方向收缩得最多。[...] 岭回归可防止在短方向上估计的梯度的潜在高方差。隐含的假设是响应将倾向于在输入的高方差方向上变化最大。这通常是一个合理的假设,因为通常选择预测变量进行研究,因为它们随响应变量而变化,但通常不需要成立。X

有关详细信息,请参阅以下主题中的我的答案:


底线

对于高维问题,使用 PCA 进行预处理(意味着降低维数并仅保留顶级 PC)可以被视为正则化的一种方式,并且通常会改善任何后续分析的结果,无论是回归还是分类方法。但不能保证这会奏效,而且通常有更好的正则化方法。

除了已经关注数学特性的答案之外,我想从实验的角度发表评论。

摘要:数据生成过程通常以使数据适用于主成分 (PCR) 或偏最小二乘法 (PLS) 回归的方式进行优化。


我是分析化学家。当我设计一个实验/方法来测量(回归或分类)某些东西时,我会利用我对应用程序和可用仪器的了解来获取与手头任务相关的具有良好信噪比的数据。这意味着,我生成的数据旨在与感兴趣的属性具有很大的协方差。
这导致了一个方差结构,其中有趣的方差很大,而后面的 PC 将只携带(小)噪声。

我也更喜欢产生有关手头任务的冗余信息的方法,以便获得更强大或更精确的结果。PCA 将冗余测量通道集中到一台 PC 中,这会带来很大的差异,因此是最早的 PC 之一。

如果存在已知的混杂因素会导致与感兴趣的属性无关的大方差,我通常会在数据预处理期间尝试尽可能多地纠正这些混杂因素:在许多情况下,这些混杂因素是已知的物理或化学性质,并且这些知识提出了纠正混杂因素的适当方法。例如,我在显微镜下测量拉曼光谱。它们的强度取决于激光的强度以及我对显微镜的聚焦程度。两者都会导致可以通过归一化(例如,已知为常数的信号)来校正的变化。
因此,在数据进入 PCA 之前,可能已经消除了对解决方案没有贡献的大量方差贡献者,从而在第一批 PC 中留下了大部分有意义的方差。


最后但并非最不重要的一点是,这里有一个自我实现的预言:显然 PCR 是用数据完成的,其中信息携带方差很大的假设确实有意义。例如,如果我认为可能存在我不知道如何纠正的重要混杂因素,我会立即选择 PLS,它更擅长忽略对预测任务没有帮助的大贡献。

PCA 有时用于纠正由共线变量引起的问题,以便 X 空间中的大部分变化被 K 个主成分捕获。

但是这个数学问题当然与捕获 X、Y 空间中的大部分变化不同,因为无法解释的变化尽可能小。

偏最小二乘法试图在后一种意义上做到这一点:

http://en.wikipedia.org/wiki/Partial_least_squares_regression

正如其他人指出的那样,前 k 个特征向量与预测能力之间没有直接联系。通过选择顶部并将它们用作基础,您可以保留一些顶部能量(或沿这些轴的变化)。

解释最大方差的轴可能实际上对预测有用,但通常情况并非如此。