我正在尝试使用自组织地图同时聚类和可视化文本文档。由于文本文档可以以各种方式表示(向量空间模型、GloVe 等),我试图弄清楚如何判断哪种表示生成最佳地图。量化误差等措施确定了给定数据集的地图的优劣。但是,它们对于定量判断哪种表示可以提供更好的输出没有用。
是否有定量方法来比较使用不同表示(例如,Tf-idf 和 GloVe)生成的地图并判断哪种表示的输出更好?
我正在尝试使用自组织地图同时聚类和可视化文本文档。由于文本文档可以以各种方式表示(向量空间模型、GloVe 等),我试图弄清楚如何判断哪种表示生成最佳地图。量化误差等措施确定了给定数据集的地图的优劣。但是,它们对于定量判断哪种表示可以提供更好的输出没有用。
是否有定量方法来比较使用不同表示(例如,Tf-idf 和 GloVe)生成的地图并判断哪种表示的输出更好?
来自维基百科:
自组织图 (SOM) 或自组织特征图 (SOFM) 是一种人工神经网络 (ANN),它使用无监督学习进行训练,以产生低维(通常是二维)的离散表示训练样本的输入空间,称为映射,因此是一种进行降维的方法。
所以你只有原始数据本身;没有额外的数据(如监督设置中的标签)。如果你还说结果必须有两个维度,你基本上看功能
在哪里大多数情况下。您已经提到了量化误差。
据我所知,没有更好的衡量标准,其中不包括通过人工检查/使用其他数据集获得更多关于数据本身的知识。
当然,通过人工检查,如果一个映射似乎更有意义,您可以判断给定的数据集和给定的人。
您还可以考虑其他降维技术: