我可以将聚类算法应用于流形可视化方法的结果吗?

数据挖掘 聚类 可视化 降维 特纳 歧管
2021-10-04 15:24:29

一些与流形学习相关的方法通常被称为good-for-visualization,例如 T-SNE 和自组织图 (SOM)。

我理解,当专门提到“可视化”时,意味着非线性降维可以在其低维投影中提供对数据的良好见解,但最常见的是这种低维投影不能用于机器学习算法,因为一些高维结构的信息丢失(大致)。

但是,这里的问题是,如果在可视化中观察到“集群”,是否可以将集群算法应用于低维转换数据并分别分析集群或组?

例如,我将 T-SNE 应用于相当高维的数据(40 个特征)并获得以下表示:

在此处输入图像描述

忽略您在图片中观察到的颜色,我想应用聚类算法并将数据与找到的聚类(假设为 6 或 7 个聚类)分开,然后使用每个聚类的高维表示来分析每个聚类的特征观点。

这是综合:使用低维来寻找聚类,并使用高维表示分别分析(探索)每个聚类。如果我不能做到这一点,我看不到在实际意义上在低维空间中进行可视化的实际意义。

我知道 T-SNE 很好地保留了局部结构和不太准确的全局结构,这是我为什么要这样做的缺点吗?这种低维度聚类方法是否更适合其他流形学习方法?

编辑:可能更直接的问题是:我可以使用低维表示中观察到的集群来标记或标记示例,并使用这些标签使用原始的高维表示进行区分吗?

1个回答

你可以在低维空间中做任何你想做的事情,也可以尝试验证。通过对上述内容进行聚类,您实际上是在将特征/标签分配给更高维度的数据点。请记住,tSNE 试图保持距离,以便高维度中的点在低维度中保持彼此靠近。

考虑到这一点,不要忘记没有两个 tSNE 实例是相同的,这意味着每次运行 tSNE 时您的聚类中心都会不同。