如何比较自组织地图的输出?

数据挖掘 机器学习 神经网络 嵌入
2022-02-15 01:08:58

我正在尝试使用自组织地图同时聚类和可视化文本文档。由于文本文档可以以各种方式表示(向量空间模型、GloVe 等),我试图弄清楚如何判断哪种表示生成最佳地图。量化误差等措施确定了给定数据集的地图的优劣。但是,它们对于定量判断哪种表示可以提供更好的输出没有用。

是否有定量方法来比较使用不同表示(例如,Tf-idf 和 GloVe)生成的地图并判断哪种表示的输出更好?

1个回答

来自维基百科

自组织图 (SOM) 或自组织特征图 (SOFM) 是一种人工神经网络 (ANN),它使用无监督学习进行训练,以产生低维(通常是二维)的离散表示训练样本的输入空间,称为映射,因此是一种进行降维的方法。

所以你只有原始数据本身;没有额外的数据(如监督设置中的标签)。如果你还说结果必须有两个维度,你基本上看功能

f:XR2

在哪里XRn大多数情况下。您已经提到了量化误差。

据我所知,没有更好的衡量标准,其中不包括通过人工检查/使用其他数据集获得更多关于数据本身的知识。

当然,通过人工检查,如果一个映射似乎更有意义,您可以判断给定的数据集和给定的人。

您还可以考虑其他降维技术: