特征向量是否代表原始特征?

人工智能 无监督学习 特征 主成分分析
2021-11-13 20:07:35

我有一个具有 4 个特征的测试数据集,PCA 产生一组 4 个特征向量,例如,

EigenVectors: [0.7549043055910286, 0.24177972266822534, -0.6095588015369825, -0.01000612689310429]
EigenVectors: [0.0363767549959317, -0.9435613299702559, -0.3290509434298886, -0.009706951562064631]
EigenVectors: [-0.001031816289317291, 0.004364438034564146, 0.016866154627905586, -0.999847698334029]
EigenVectors: [-0.654824523403971, 0.2263084929291885, -0.7210264051508555, -0.010499173877772439]

特征向量值是否代表原始数据集中的特征?例如,特征 1 和 2 是否解释了特征向量 1 中的大部分方差?

我是否正确地解释了结果,因为 PC1 代表 90% 的方差,所以特征 1 和 2 在我的数据集中是最重要的?

我正在尝试映射回原始特征,但不确定如何解释结果。

1个回答

主成分(特征向量)对应于数据中方差最大的方向(在原始 n 维空间中)。

相应的特征值是一个数字,表示沿该特征向量(或主成分)的数据中有多少方差。

因此,特征 2 是最重要的(仅基于特征值)。然后是功能 1。其他 2 个功能影响不大,理论上可以作为数据缩减工作的一部分删除。

另外,重要的是要指出

在执行 PCA 时,首先对数据进行标准化通常是一个好主意。因为 PCA 试图识别具有最高方差的主成分,如果数据没有正确归一化,具有大值和大方差(绝对值)的属性最终会在不应该的情况下主导第一个主成分。

IOW,如果您没有对数据进行标准化,那么您的 PCA 分析很可能毫无意义。

*以上引用文字来自http://www.lauradhamilton.com/introduction-to-principal-component-analysis-pca