PCA 中的“主要成分”到底是什么?

机器算法验证 主成分分析 术语 定义
2022-02-10 14:26:25

假设是使设计矩阵的数据投影方差最大化的向量。uX

现在,我已经看到将称为数据的(第一)主成分的材料,这也是具有最大特征值的特征向量。u

但是,我也看到数据的主要成分是Xu

显然,是不同的东西。谁能在这里帮助我并告诉我这两个主成分定义之间有什么区别?uXu

1个回答

您观察到即使(协方差矩阵的特征向量之一,例如第一个)和(将数据投影到一维跨越的子空间)是两个不同的东西,它们通常被称为“主成分”,有时甚至在同一个文本中。uXuu

在大多数情况下,从上下文中可以清楚地知道确切的含义。然而,在一些罕见的情况下,它确实会很混乱,例如,当讨论一些相关的技术(如稀疏 PCA 或 CCA)时,不同的方向不必是正交的。在这种情况下,像“组件是正交的”这样的陈述具有非常不同的含义,具体取决于它是指轴还是投影。ui

我主张称为“主轴”或“主要方向”,而为“主成分”。uXu

我还看到被称为“主分量向量”。u

我应该提到替代约定是调用 “主成分”和 “主成分分数”。uXu

两个约定的总结:

Convention 1Convention 2u{principal axisprincipal directionprincipal component vectorprincipal componentXuprincipal componentprincipal component scores


注意:只有与非零特征值对应的协方差矩阵的特征向量才能称为主方向/分量。如果协方差矩阵是低秩的,它将有一个或多个零特征值;对应的特征向量(和对应的常数为零的投影)不应称为主方向/分量。在我的回答中查看一些讨论。