主成分回归 (PCR) 是否使用主成分分数进行回归?

机器算法验证 回归 主成分分析 多重回归
2022-03-14 21:57:13

主成分回归 (PCR) 实际上是对 PC 分数而非 PC 的回归。那么为什么在这么多的书籍和教程中他们会说类似的话,

在统计学中,主成分回归 (PCR) 是一种回归分析,在估计回归系数时使用主成分分析

wiki),以及著名的《主成分分析》一书(Jolliffe,2002,第 169 页),它说

... [PCR] 在回归模型中简单地将预测变量替换为它们的 PC

这让我很困惑。

2个回答

我认为维基百科的文章说“在估计回归系数时使用主成分分析”有点草率。更好的可能是“在估计回归系数之前使用主成分分析来创建解释变量”。随后的句子“在 PCR 中,不是直接将因变量回归到自变量上,而是使用自变量的主成分”,没有什么令人反感的。

我也看不出你从 Jolliffe 的书中引用的内容有什么问题(我还没有读过)。PCR 使用变量的主成分作为回归模型中的预测变量是正确的。

我不太明白您所说的“PC 分数回归而不是 PC 回归”是什么意思。您首先进行主成分分析以创建分数,然后在回归中使用这些分数。

其他答案使用的术语与作者可能熟悉的术语不同。下面,我指的是分数矩阵,并使用主成分来指代单位方差特征向量。

如果您认为答案适用于样本内和样本外回归的一般情况,那么知道主成分矩阵就足以执行 PCR,但知道分数矩阵则不然。

主成分分析

给定,一个矩阵,在 PCA 中我们找到 ,使得其中是不相关的并且按照方差递减的顺序排列。称为“分数”,称为“主成分”。Xm×nTPT=PXt1,,tnTP

主成分回归

要使用 PCR回归到响应向量 ,首先使用 PCA然后,使用个主成分执行P_的普通最小二乘XyXkXPky

算法概述

使用普通最小二乘法求解,其中是系数矩阵。因此,在回归中我们对进行操作的意义上,您只需要主成分(即特征向量)和设计矩阵(),但显然是得分矩阵。Y=PXBBXXPX=T

现在假设您在新数据您仍然需要主成分矩阵(最多成分),但不需要因此,PCR 在一般情况下使用 PC 矩阵而不是分数矩阵。BXPkT

答案来自Kee Siong Ng (2013)的 A Simple Explanation of Partial Least Squares 。

感谢@amoeba 帮助澄清这个答案。