t-SNE 和 SOM 之间的差异

机器算法验证 数据可视化 降维 特纳 自组织图
2022-03-21 17:23:39

我有一些高维数据,我想将其减少到二维以进行可视化。目标是为这个 2D 空间中的点着色,以查看是否由于我的数据集的不同特征而存在任何聚类。我对进行任何实际的聚类或从该模型进行任何预测不感兴趣,只是将其可视化以识别模式。

我正在努力理解 t-SNE 和 SOM(自组织地图)之间的区别。显然,每种技术的计算方式不同,但我想知道这些技术有何不同,以及决定使用哪种技术时应该考虑哪些因素

据我了解,似乎有许多相似之处:

  1. 两者都用于流形学习,并且仅在您希望高维数据符合某些低维流形时才应使用。

  2. 在这两种情况下,从高维到低维的映射都是使用欧几里德距离完成的

  3. 它们都使用某种邻域函数来保留数据的局部结构。我相信全局结构在某种意义上也得到了保留

  4. 它们似乎都保留了输入的拓扑结构。例如,SOM 生成输入空间的 2D 表示,其中在高维输入空间中靠得很近的数据点在输出 SOM 中靠得很近。

那么,这些技术之间的主要区别是什么,什么时候应该使用其中一种?

更一般地说,您如何确定保留输入的拓扑结构以及使用这些类型的技术而不是 PCA 之类的技术是否重要?

0个回答
没有发现任何回复~