在 T-SNE 可视化中可以认为更近的点更相似吗?

数据挖掘 可视化 降维 特纳 歧管
2021-10-03 01:54:02

我从 Hinton 的论文中了解到,T-SNE 在保持局部相似性方面做得很好,在保持全局结构(聚类)方面做得很好。

但是,我不清楚在 2D t-sne 可视化中出现更近的点是否可以假定为“更相似”的数据点。我正在使用具有 25 个特征的数据。

例如,观察下图,我可以假设蓝色数据点更类似于绿色数据点,特别是最大的绿色点集群吗?或者,换一种问法,是否可以假设蓝色点与最近集群中的绿色点更相似,而不是另一个集群中的红色点?(忽略红色集群中的绿点)

在此处输入图像描述

在观察其他示例时,例如 sci-kit learn Manifold learning 中提出的示例,假设这一点似乎是正确的,但我不确定从统计学上讲是否正确。

在此处输入图像描述

编辑

我已经手动计算了与原始数据集的距离(平均成对欧几里德距离),可视化实际上代表了与数据集成比例的空间距离。但是,我想知道这是否可以从 t-sne 的原始数学公式中得到预期,而不仅仅是巧合。

1个回答

我将 t-SNE 呈现为局部线性嵌入的智能概率适应。在这两种情况下,我们都尝试将点从高维空间投影到小空间。该投影是通过优化局部距离的守恒来完成的(直接使用 LLE,预先生成概率分布并使用 t-SNE 优化 KL 散度)。那么如果你的问题是,它是否保持全球距离,答案是否定的。这将取决于您的数据的“形状”(如果分布是平滑的,那么距离应该以某种方式保持)。

t-SNE 实际上在瑞士卷(您的“S”3D 图像)上效果不佳,您可以看到,在 2D 结果中,非常中间的黄色点通常比蓝色点更接近红色点(它们在 3D 图像中完全居中)。

t-SNE 所做的另一个很好的例子是手写数字的聚类。请参阅此链接上的示例:https ://lvdmaaten.github.io/tsne/