我有一些高维数据,我想将其减少到二维以进行可视化。目标是为这个 2D 空间中的点着色,以查看是否由于我的数据集的不同特征而存在任何聚类。我对进行任何实际的聚类或从该模型进行任何预测不感兴趣,只是将其可视化以识别模式。
我正在努力理解 t-SNE 和 SOM(自组织地图)之间的区别。显然,每种技术的计算方式不同,但我想知道这些技术有何不同,以及决定使用哪种技术时应该考虑哪些因素
据我了解,似乎有许多相似之处:
两者都用于流形学习,并且仅在您希望高维数据符合某些低维流形时才应使用。
在这两种情况下,从高维到低维的映射都是使用欧几里德距离完成的
它们都使用某种邻域函数来保留数据的局部结构。我相信全局结构在某种意义上也得到了保留
它们似乎都保留了输入的拓扑结构。例如,SOM 生成输入空间的 2D 表示,其中在高维输入空间中靠得很近的数据点在输出 SOM 中靠得很近。
那么,这些技术之间的主要区别是什么,什么时候应该使用其中一种?
更一般地说,您如何确定保留输入的拓扑结构以及使用这些类型的技术而不是 PCA 之类的技术是否重要?