同一个集群类别是如何分开的?

数据挖掘 k-均值 tfidf 向量空间模型
2022-02-17 09:00:26

我有这 200 个向量,它们使用基于 TF-IDF(词频 - 逆文档频率)给出的关键字权重相似性的 K-means 聚类进行聚类。这些向量相对于阿姆斯特丹、鹿特丹、海牙和乌得勒支四个城市的向量进行了聚类。我选择了 k-cluster centroid = 6,这意味着我有集群 0 到集群 5。在每个集群上,我还计算了关键字的数字权重的平均数,这样我就得到了最相关和最不相关的一组关键字,就像下图:

在此处输入图像描述

相关关键字和最不相关的关键字都可以帮助解释集群的含义。例如,集群 0 与铁路运输相关,因为最相关的关键字包括电车、线路、电车轨道、车站铁路最不相关的关键词强调对聚类 0 的解释,其中关键词包括摄影、自​​行车、iphoneography、绿色、自然花卉

我有这张照片中显示的阿姆斯特丹市所有六个集群的集群图: 在此处输入图像描述

问题是在阿姆斯特丹市,没有与轨道交通有关的集群 0 。在我的分析意见中,这是因为所有与铁路运输相关的向量都聚集到集群 3,这也与铁路运输有关(基于我对两个集群上最相关和最不相关的关键字的解释)。集群 3 也与铁路运输有关,因为最相关的关键字包括电车、线路、电车轨道、车站铁路最不相关的关键词强调对集群 0 的解释,其中关键词包括摄影、自​​行车、iphoneography、绿色、自然花卉.

在此处输入图像描述

还有证据表明在鹿特丹和海牙市找不到集群 3,因为这两个城市的所有与轨道交通相关的向量都聚集到集群 0。您可以在下面找到这两个城市的集群地图图片: 在此处输入图像描述 在此处输入图像描述

我的问题是我的分析是否合理?但是,两个相同主题的集群怎么会分开呢?为什么他们不聚集在一起?

1个回答

此 KMeans 聚类是基于 200 个特征及其长度的空间中的点的代表。我认为您的观点和实际聚类存在一些差距。

除了"Tram"之外,大多数其他相关功能在两个 Rail Cluster 中都不常见。因此,在空间中创建了两个不同的 blob。
请参阅此图像,数据位于Tram维度上的相同位置,但其他功能创建了两个不同的组。 这些是您可以采用的方法 - 清除域上下文中重复/相似含义的所有特征,例如铁路、铁路 - 尝试不同的集群计数,例如 5 并查看这两个是否合并
在此处输入图像描述



- 即使这些没有合并,也会有一些消息,你应该弄清楚。例如 gvg、combino、有轨电车、城市