数据挖掘 - 如何比较自组织地图的输出？ - 吾爱随笔录

数据挖掘机器学习神经网络嵌入

2022-02-15 01:08:58

我正在尝试使用自组织地图同时聚类和可视化文本文档。由于文本文档可以以各种方式表示（向量空间模型、GloVe 等），我试图弄清楚如何判断哪种表示生成最佳地图。量化误差等措施确定了给定数据集的地图的优劣。但是，它们对于定量判断哪种表示可以提供更好的输出没有用。

是否有定量方法来比较使用不同表示（例如，Tf-idf 和 GloVe）生成的地图并判断哪种表示的输出更好？

1个回答

自组织图 (SOM) 或自组织特征图 (SOFM) 是一种人工神经网络 (ANN)，它使用无监督学习进行训练，以产生低维（通常是二维）的离散表示训练样本的输入空间，称为映射，因此是一种进行降维的方法。

所以你只有原始数据本身；没有额外的数据（如监督设置中的标签）。如果你还说结果必须有两个维度，你基本上看功能

f : X \to R^{2}

$f: X \rightarrow \mathbb{R}^2$

在哪里 $X \subsetneq \mathbb{R}^n$ 大多数情况下。您已经提到了量化误差。

据我所知，没有更好的衡量标准，其中不包括通过人工检查/使用其他数据集获得更多关于数据本身的知识。

当然，通过人工检查，如果一个映射似乎更有意义，您可以判断给定的数据集和给定的人。

您还可以考虑其他降维技术：

其它你可能感兴趣的问题