对特征向量的视觉解释感到困惑:视觉上不同的数据集如何具有相同的特征向量?

机器算法验证 相关性 主成分分析 协方差矩阵 特征值
2022-03-23 17:33:37

许多统计教科书提供了协方差矩阵的特征向量的直观说明:

在此处输入图像描述

向量uz形成特征向量(好吧,特征轴)。这是有道理的。但是让我感到困惑的一件事是我们从相关矩阵中提取特征向量,而不是原始数据。此外,完全不同的原始数据集可以具有相同的相关矩阵。例如,以下两者都具有相关矩阵:

[10.970.971]

特征向量

因此,它们具有指向同一方向的特征向量:

[.71.71.71.71]

但是,如果您对原始数据中特征向量的方向应用相同的视觉解释,您将得到指向不同方向的向量。

有人可以告诉我哪里出错了吗?

第二次编辑:如果我可以这么大胆,下面的优秀答案我能够理解混乱并说明它。

  1. 视觉解释与从协方差矩阵中提取的特征向量不同的事实相一致。

    协方差和特征向量(红色):

    [1111][.7.72.72.7]

    协方差和特征向量(蓝色):

    [.25.5.51][.43.9.9.43]

  2. 相关矩阵反映了标准化变量的协方差矩阵。标准化变量的目视检查说明了为什么在我的示例中提取了相同的特征向量:

在此处输入图像描述

1个回答

您不必对相关矩阵进行 PCA;您也可以分解协方差矩阵。请注意,这些通常会产生不同的解决方案。(有关这方面的更多信息,请参阅:PCA on correlation or covariance?

在第二个图中,相关性是相同的,但组看起来不同。它们看起来不同,因为它们具有不同的协方差。但是,方差也不同(例如,红色组在 X1 的更宽范围内变化),相关性是协方差除以标准差 ()。结果,相关性可以是相同的。 Covxy/SDxSDy

同样,如果您使用协方差矩阵对这些组执行 PCA,您将获得与使用相关矩阵不同的结果。