主成分回归 (PCR) 是否使用主成分分数进行回归?
机器算法验证
回归
主成分分析
多重回归
2022-03-14 21:57:13
2个回答
我认为维基百科的文章说“在估计回归系数时使用主成分分析”有点草率。更好的可能是“在估计回归系数之前使用主成分分析来创建解释变量”。随后的句子“在 PCR 中,不是直接将因变量回归到自变量上,而是使用自变量的主成分”,没有什么令人反感的。
我也看不出你从 Jolliffe 的书中引用的内容有什么问题(我还没有读过)。PCR 使用变量的主成分作为回归模型中的预测变量是正确的。
我不太明白您所说的“PC 分数回归而不是 PC 回归”是什么意思。您首先进行主成分分析以创建分数,然后在回归中使用这些分数。
其他答案使用的术语与作者可能熟悉的术语不同。下面,我指的是分数矩阵,并使用主成分来指代单位方差特征向量。
如果您认为答案适用于样本内和样本外回归的一般情况,那么知道主成分矩阵就足以执行 PCR,但知道分数矩阵则不然。
主成分分析
给定,一个矩阵,在 PCA 中我们找到 ,使得其中是不相关的并且按照方差递减的顺序排列。称为“分数”,称为“主成分”。
主成分回归
要使用 PCR回归到响应向量 ,首先使用 PCA然后,使用个主成分执行P_的普通最小二乘。
算法概述
使用普通最小二乘法求解,其中是系数矩阵。因此,在回归中我们对进行操作的意义上,您只需要主成分(即特征向量)和设计矩阵(),但显然是得分矩阵。
现在假设您在新数据上您仍然需要主成分矩阵(最多成分),但不需要。因此,PCR 在一般情况下使用 PC 矩阵而不是分数矩阵。
答案来自Kee Siong Ng (2013)的 A Simple Explanation of Partial Least Squares 。
感谢@amoeba 帮助澄清这个答案。