我想知道如何解释t分布的随机邻居嵌入(t-SNE)图。特别是:1)除了显示集群之外,它们还传达了哪些信息?2)在 PCA 中,我们可以看到加载并将组件解释为解释原始特征可变性的因素。在 t-SNE 中是否有类似的方法可以做到这一点?或者,我们只能说“数据与 t-SNE 分离得很好,但我们不知道为什么。”?
如何解释 t-SNE 图?
机器算法验证
数据可视化
降维
特纳
2022-04-04 06:25:16
1个回答
与 PCA 不同,低维空间中的轴没有特定含义。事实上,可以任意旋转低维点,t-SNE 成本函数不会改变。此外,t-SNE 不构建与高维和低维空间相关的显式映射。
相反,相关信息是低维点之间的相对距离。t-SNE 在输入空间中的相邻点往往是低维空间中的相邻点的意义上捕获结构。
但是,需要注意一些,因为不一定能解释更大的距离。如果点在输入空间中被分离,t-SNE 想在低维空间中分离它们。但是,它并不关心它们有多远(例如,与 PCA、MDS 或 isomap 不同)。另一个问题是 t-SNE 有时会将连续的数据段分解成碎片并人为地分离它们,特别是在低困惑度设置下。请参阅此处以获取一个很好的示例。t-SNE 被构建为可视化工具,而不是预处理或分析工具,由于这些问题,在低维空间中进行聚类等操作可能很危险。结果是,扭曲距离有时会让 t-SNE 产生良好的 2/3d 数据可视化,这些数据本质上是高维的。
t-SNE 可视化有用的一种方法是将它们与外部信息相结合。这可以揭示我们可能没有意识到的数据模式。例如,t-SNE 论文展示了 MNIST 数据集(手写数字图像)的可视化。图像根据它们所代表的数字进行聚类——当然,我们已经知道了。但是,在一个集群中,相似的图像往往被组合在一起(例如,数字“1”的图像向左倾斜与向右倾斜)。而且,出现在“错误”集群中的点有时实际上在原始数据集中被错误标记,或者写得模棱两可(例如,在“4”和“9”之间)。
其它你可能感兴趣的问题