具有线性内核的内核 PCA 是否等同于标准 PCA?

机器算法验证 主成分分析 内核技巧
2022-02-09 05:12:31

如果在内核 PCA中我选择线性内核K(x,y)=xy,结果会不会和普通的线性 PCA不同?解决方案是根本不同的还是存在一些明确定义的关系?

3个回答

总结:带有线性核的核主成分分析与标准主成分分析完全等价。

X是中心的数据矩阵N×D大小与D列中的变量和N行中的数据点。然后D×D协方差矩阵由下式给出XX/(n1),其特征向量是主轴,特征值是 PC 方差。同时,可以考虑所谓的格拉姆矩阵XXN×N尺寸。很容易看出它具有相同的特征值(即 PC 方差),直到n1因子,其特征向量是按单位范数缩放的主成分。

这是标准的 PCA。现在,在内核 PCA 中,我们考虑一些函数ϕ(x)将每个数据点映射到另一个通常具有更大维度的向量空间Dnew,甚至可能是无限的。内核 PCA 的想法是在这个新空间中执行标准 PCA。

由于这个新空间的维度非常大(或无限),因此很难或不可能计算协方差矩阵。但是,我们可以将第二种方法应用于上述 PCA。确实,Gram 矩阵仍将具有相同的可管理性N×N尺寸。该矩阵的元素由下式给出ϕ(xi)ϕ(xj),我们称之为核函数K(xi,xj)=ϕ(xi)ϕ(xj). 这就是所谓的内核技巧:实际上不需要计算ϕ(), 但只有K(). 这个 Gram 矩阵的特征向量将是目标空间中的主成分,也就是我们感兴趣的那些。

您的问题的答案现在变得显而易见。如果K(x,y)=xy,则核格拉姆矩阵简化为XX等于标准的 Gram 矩阵,因此主成分不会改变。

一个非常易读的参考资料是Scholkopf B, Smola A, and Müller KR, Kernel principal component analysis, 1999,请注意,例如在图 1 中,他们明确地将标准 PCA 称为使用点积作为核函数的标准 PCA:

内核 PCA

除了变形虫的好答案之外,还有一种更简单的方法来查看等效性。再让X是的数据矩阵N×D大小与D列中的变量和N行中的数据点。标准 PCA 对应于对矩阵进行奇异值分解X=UΣVU的主要成分X. 线性核的奇异值分解XX=UΣ2U具有相同的左奇异向量,因此具有相同的主成分。

在我看来,具有线性内核的 KPCA 应该与简单的 PCA 相同。

您要从中获取特征值的协方差矩阵是相同的:

linearKPCAmatrix=1lj=1lK(xj,xj)=1lj=1lxjxjT=PCAmatrix

您可以在此处查看更多详细信息