解释 PCA 特征向量元素的正负号

机器算法验证 主成分分析
2022-04-09 20:23:04

如果我将变量居中然后运行 ​​PCA,我是否需要解释与正特征向量不同的负特征向量?

澄清:在我的 PCA 中,我在一个组件中有负变量和正变量。这可能是非常基本的,但我被告知有关组件内变量的解释的不同事情,所以我只需要澄清一下。是否使组件内的负值朝相同方向移动而正值朝相反方向移动?还是我应该只查看组件内变量的绝对值?

3个回答

我认为你有它倒退。如果该值为正,则该变量的较高分数与该组件的较高分数相关联,如果该值为负,则较高的分数意味着该组件的较低分数。

此外,人们有时会使用 PCA 来确定是否保留或组合某些变量以进行后续分析。严格来说,这不是对 PCA 的适当使用。 为此目的应该使用因子分析,但无论如何,人们都会这样做。在这种情况下,人们会查看绝对值,看它是否高于某个任意阈值,例如 0.5,如果是,则保留(或合并),如果不是,则丢弃。对于它的价值,我不推荐这个。

更新:我不知道我是否回答了正确的问题。在我看来,@whuber 的第二条评论在金钱上是正确的,也与我上面的第一段一致。但是,现在的问题与以前不同,与我对@whuber 评论的理解不同,所以我有点困惑。本质上,PCA 求解特征向量和特征值。无论您是否首先将变量居中,都不会是负面的。特征值是对应特征向量的长度. 就像我不能买一块-10 英尺(即-3 米)长的木板来建造露台一样,你不能有负的特征值。返回的特征向量也将是正的。您可以通过将所有符号乘以 -1 来否定它,但正如@whuber 指出的那样,这将毫无意义。正如@whuber 所指出的,相对符号是有意义的,它们与组件的关系正如我在上面第一段中所说的那样。也就是说,相对符号(负与正)将表示变量的较高(/较低)分数与变量是否首先居中的组件之间的相同关系。

将变量居中不应更改 PCA 结果,因为 PCA 首先确定相关矩阵并从那里继续。无论如何,您的变量之间的相关性应该是相同的,因此 PCA 结果不应受到您执行的任何平均居中的影响。

当我们说相关性时,这意味着可以是两个方向,即正面和负面。主要成分的解释是基于找出哪些变量与每个成分最密切相关,即,这些数字中的哪些数量大,在正或负方向上离零最远。