一些与流形学习相关的方法通常被称为good-for-visualization,例如 T-SNE 和自组织图 (SOM)。
我理解,当专门提到“可视化”时,意味着非线性降维可以在其低维投影中提供对数据的良好见解,但最常见的是这种低维投影不能用于机器学习算法,因为一些高维结构的信息丢失(大致)。
但是,这里的问题是,如果在可视化中观察到“集群”,是否可以将集群算法应用于低维转换数据并分别分析集群或组?
例如,我将 T-SNE 应用于相当高维的数据(40 个特征)并获得以下表示:
忽略您在图片中观察到的颜色,我想应用聚类算法并将数据与找到的聚类(假设为 6 或 7 个聚类)分开,然后使用每个聚类的高维表示来分析每个聚类的特征观点。
这是综合:使用低维来寻找聚类,并使用高维表示分别分析(探索)每个聚类。如果我不能做到这一点,我看不到在实际意义上在低维空间中进行可视化的实际意义。
我知道 T-SNE 很好地保留了局部结构和不太准确的全局结构,这是我为什么要这样做的缺点吗?这种低维度聚类方法是否更适合其他流形学习方法?
编辑:可能更直接的问题是:我可以使用低维表示中观察到的集群来标记或标记示例,并使用这些标签使用原始的高维表示进行区分吗?