与 t-SNE 相比,直观地解释了 UMAP 的工作原理

机器算法验证 降维 直觉 特纳
2022-02-02 07:30:02

我拥有分子生物学博士学位。我的研究最近开始涉及高维数据分析。我了解了 t-SNE 的工作原理(感谢YouTube 上的 StatQuest 视频),但似乎无法完全理解UMAP(我在网上听了UMAP 创作者的演讲,但并不容易理解)。我回到了描述它的原始论文,但对我来说这太数学了。

任何人都可以阐明这个问题吗?我正在寻找或直观的解释,类似于上面链接的 StatQuest 视频。

2个回答

您说您对 t-SNE 的理解基于https://www.youtube.com/watch?v=NEaUSP4YerM并且您正在寻找类似级别的 UMAP 解释。

我看了这个视频,它说的很准确(我有一些小问题,但总的来说还不错)。有趣的是,它几乎原样适用于 UMAP。以下是适用的内容:

  1. 相似性是使用不同的内核从距离计算的;它不是高斯的,但它也呈指数衰减,并且它还具有自适应宽度,如在 t-SNE 中。
  2. 相似性未归一化为总和为 1,但最终仍归一化为总和一个常数值。
  3. 相似性是对称的,但不仅仅是通过平均。
  4. 嵌入空间中的相似核并不完全是 t 分布核,而是一个非常相似的核。

我认为所有这些差异都不是很重要,也不是很重要。真正重要的部分是视频中叙述者所说的部分(10 分 40 秒):

我们想让这一行看起来像这一行 [...]

该视频没有解释 t-SNE 如何量化它们是否相似,以及如何继续实现它们看起来相似。这两个部分在 UMAP 中是不同的。但是引用的声明也可以适用于UMAP。


UMAP 论文的编写方式,与 t-SNE 的计算相似性不是很明显。向下滚动到https://arxiv.org/pdf/1802.03426.pdf中的附录 C和/或查看此处https://jlmelville.github.io/uwot/umap-for-tsne.html,如果您想查看我上面列出的计算与 t-SNE 和 UMAP 的损失函数的并排比较。

t-SNE 和 UMAP 的主要区别在于对物体或“簇”之间距离的解释。我使用引号是因为这两种算法都不是为了聚类——它们主要是为了可视化。

t-SNE 保留数据中的局部结构。

UMAP 声称保留数据中的本地和大部分全局结构。

这意味着使用 t-SNE,您无法解释绘图不同端的集群 A 和 B 之间的距离。您不能推断这些聚类比 A 和 C 更不相似,其中 C 在图中更接近 A。但是在簇 A 中,可以说彼此靠近的点比簇图像不同端的点更相似。

使用 UMAP,您应该能够解释点和簇之间/位置之间的距离。

这两种算法都是高度随机的,并且非常依赖于超参数的选择(t-SNE 甚至超过 UMAP),并且在不同的运行中会产生非常不同的结果,因此您的绘图可能会混淆后续运行可能显示的数据中的信息。

另一方面,好的旧 PCA 是确定性的,并且通过线性代数(矩阵乘法和特征问题)的基本知识易于理解,但与 t-SNE 和 UMAP 的非线性缩减相比,它只是线性缩减。