PCA 如何应用于新数据?

机器算法验证 主成分分析 直觉 特征值
2022-03-23 04:05:02

我理解 PCA 背后的基本直觉:通过找到数据中方差最大的特征向量,并沿着这些特征向量(主成分)投影数据来降低数据的维度。

我不明白的是:

  • 如何找到特征向量?标准特征向量方程由给出,其中分别是特征值和特征向量。那么什么是矩阵 - 数据本身,或数据的协方差矩阵......或其他什么?(如果数据矩阵不是正方形,那么这个等式不成立。)Av=λvλvA

  • 一旦在数据集上执行/训练了 PCA,是否可以应用它来降低新的未见数据的维数?为此,我认为 PCA 需要输出一个映射,并且该映射可以应用于新数据,例如以矩阵乘法的形式。

    1. PCA 的输出是什么?
    2. 如果有的话,输出是如何应用于新数据的?
1个回答

我会回答每个问题:

  • A确实是协方差矩阵(所以假设是标准化的)XTXX
  • PCA 的输出是 3 件事:列的向量表示的列 stddevs和旋转矩阵因此,对于一个新的样本行,要计算其在主成分空间上的投影,您必须标准化和旋转,即,这将产生一个行向量在 PC 坐标中。请注意,这里我除以 elementwise。μXσXR=[v1...vp]x0T((x0μ)/σ)TRx0σ