机器算法验证 - t-SNE 与 MDS - 吾爱随笔录

t-SNE 与 MDS

机器算法验证数据可视化降维多维尺度特纳

2022-02-01 12:25:33

最近在看一些关于t-SNE（t-Distributed Stochastic Neighbor Embedding）的问题，也访问了一些关于MDS（多维缩放）的问题。

它们经常被类似地使用，因此在这里提出这个问题似乎是一个好主意，因为这里有很多关于这两个问题的问题（或与PCA相比）。

简而言之，是什么让 t-SNE 和 MDS 不同？例如。他们探索的数据层次结构的细节，不同的假设等。

收敛速度？内核的使用怎么样，两者都符合吗？

1个回答

PCA 通过对 N 个数据点本身的特征分析来选择有影响的维度，而 MDS 通过对 N 个数据点的特征分析来选择有影响的维度。 $N^2$ 成对距离矩阵的数据点。这具有突出分布均匀性偏差的效果。考虑到距离矩阵类似于应力张量，MDS 可以被视为“力导向”布局算法，其执行复杂度为 $\mathcal O(dN^a)$ 在哪里 $3 < a \leq 4$ .

另一方面，t-SNE 使用场近似来执行某种不同形式的力导向布局，通常通过 Barnes-Hut 减少 $\mathcal O(dN^2)$ 基于梯度的复杂度 $\mathcal O(dN\cdot \log(N))$ ，但是对于这种迭代随机逼近方法（据我所知）的收敛性不太了解，并且对于 $2 \leq d \leq 4$ 典型的观察到的运行时间通常比其他降维方法长。结果通常比朴素特征分析更具视觉解释性，并且取决于分布，通常比 MDS 结果更直观，后者倾向于以牺牲 t-SNE 保留的局部结构为代价来保留全局结构。

MDS 已经是内核 PCA 的简化，并且应该可以使用替代内核进行扩展，而 Gilbrecht、Hammer、Schulz、Mokbel、Lueks 等人在工作中描述了内核 t-SNE。我实际上并不熟悉它，但也许另一位受访者可能是。

我倾向于根据上下文目标在 MDS 和 t-SNE 之间进行选择。无论哪一个阐明了我有兴趣强调的结构，无论哪个结构具有更大的解释力，这就是我使用的算法。这可以被认为是一个陷阱，因为它是研究人员自由度的一种形式。但是明智地使用自由并不是一件坏事。

其它你可能感兴趣的问题

上一篇为什么名称类型 1、2 错误？下一篇有没有需要强一致性的统计应用？