与 t-SNE 相比,PCA 作为降维技术有哪些缺点?

机器算法验证 主成分分析 降维 特纳
2022-03-30 11:35:45

我一直在阅读和使用 tSNE,与 PCA 相比,它能够在高维 a 点周围保留邻居。例如,我有这些由代表人脸的神经网络创建的 128 维嵌入。我同时使用 PCA 和 tSNE 将它们投影到二维。

在此处输入图像描述

很明显,tSNE 做得更好,并且在 tSNE 的论文中指出:

对于位于或靠近低维非线性流形的高维数据,通常更重要的是保持非常相似数据点的低维表示靠近在一起,这通常是线性映射不可能实现的。

为什么在使用线性映射将高维数据映射到低维时,通常不可能将非常相似的数据点保持在一起?我了解 PCA,所以如果可能的话,有人能提供一个具体的例子来说明为什么这是真的吗?

1个回答

这一切都取决于您如何理解“相似性”以及您转换为低维表示的目标是什么。

无论这种“相似性”是什么,PCA 都不会尝试对“相似”点进行分组。PCA 是一种构建特定线性变换的方法,它会产生具有非常明确的属性(例如不同分量之间的正交性)的样本的新坐标。可以说,“相似”点组合在一起的事实是副产品。或者,更确切地说,“相似”点(例如,来自同一实验组的样本)经常聚集在第一个组件中的事实是由于

  • 组是总体方差的主要贡献者(第一个组成部分占总方差的主要部分)
  • 组之间的差异对于一个变量或另一个变量通常是线性的

t-SNE 是一种在设计时考虑到不同目标的算法——即使在缺乏线性的情况下也能够对“相似”数据点进行分组。相似性以非常特殊的方式定义(有关详细信息,请参阅Wikipedia)。这种相似性的定义并不完全是一个通用的定义,它强调局部相似性和局部密度。

然而,虽然 t-SNE 非常擅长解决聚类紧密样本的特定目标,但与 PCA 相比,它有一个主要缺点:它为您提供了数据的低维表示,但它没有为您提供转换。换句话说,你不能

  • 以与您在 PCA 中解释载荷类似的方式解释尺寸
  • 将转换应用于新数据集

因此,探索多维数据可能很有用,但在更一般的任务(例如机器学习和 ML 模型的解释)中并不是很有用。