Gram/Kernel 矩阵的特征向量的物理意义是什么?

机器算法验证 机器学习 主成分分析 内核技巧
2022-03-29 17:22:19

如果我们有一些居中的数据集X那么特征向量XTX表示数据集的主要成分,它们的物理意义是数据在原始特征空间中遵循的方向。

现在,像以前一样,我们可以创建核矩阵XXT的中心数据,我们可以计算其特征向量和特征值。

我知道利用这种分解可能会有一些好处,例如利用J. Shawe-Taylor等人在本文中讨论的顶级组件的子集。,但是,我不确定我是否理解这种分解的物理意义。现在的方向是什么,特征值的含义是什么?

1个回答

特征值实际上与协方差矩阵的特征值相同。X=UΣVT是奇异值分解;然后

XXT=UΣVTVIΣUT=UΣ2UT
同样地XTX=VΣ2VT. 请注意,在典型情况下Xn×pnp,格拉姆矩阵的大部分特征值将为零。如果您使用的是 RBF 内核,则没有一个将是零(尽管有些可能会非常小)。

因此,Gram 矩阵的特征向量被视为X,U. 解释这些的一种方法是:

  • 右奇异向量(的列V,协方差矩阵的特征向量)给出了数据倾向于在特征空间中的方向。
  • 奇异值(的对角线Σ,任一矩阵的特征值的平方根)给出了每个组件对整个数据集的重要性。
  • 左奇异向量(列U,Gram 矩阵的特征向量)给出了每个数据点由每个组件表示的程度,相对于它们在整个数据集中使用的程度。(列UΣ给出分数,在基中表示数据时每个分量的线性系数V.)

如果你只取前几列U(以及相应的块Σ),您可以将数据尽可能好地投影到最频繁的组件 (PCA) 上。

如果一个数据点的行范数很高U,这意味着它使用组件比其他组件多得多,即它具有高杠杆/“突出”。如果p>n,这些都将是一个,在这种情况下,您可以只看第一个k值(利用与最佳 rank-k 近似对应的分数)或进行某种软阈值处理。这样做k=1,这在计算上更容易,为您提供 PageRank。

另请参阅此线程和其中的链接,了解您想了解的有关 SVD/PCA 的所有信息,您可能没有意识到这确实是您的问题,但确实如此。