数据挖掘 - 同一个集群类别是如何分开的？ - 吾爱随笔录

我有这 200 个向量，它们使用基于 TF-IDF（词频 - 逆文档频率）给出的关键字权重相似性的 K-means 聚类进行聚类。这些向量相对于阿姆斯特丹、鹿特丹、海牙和乌得勒支四个城市的向量进行了聚类。我选择了 k-cluster centroid = 6，这意味着我有集群 0 到集群 5。在每个集群上，我还计算了关键字的数字权重的平均数，这样我就得到了最相关和最不相关的一组关键字，就像下图：

相关关键字和最不相关的关键字都可以帮助解释集群的含义。例如，集群 0 与铁路运输相关，因为最相关的关键字包括电车、线路、电车轨道、车站和铁路。最不相关的关键词强调对聚类 0 的解释，其中关键词包括摄影、自行车、iphoneography、绿色、自然和花卉。

我有这张照片中显示的阿姆斯特丹市所有六个集群的集群图：

问题是在阿姆斯特丹市，没有与轨道交通有关的集群 0 。在我的分析意见中，这是因为所有与铁路运输相关的向量都聚集到集群 3，这也与铁路运输有关（基于我对两个集群上最相关和最不相关的关键字的解释）。集群 3 也与铁路运输有关，因为最相关的关键字包括电车、线路、电车轨道、车站和铁路。最不相关的关键词强调对集群 0 的解释，其中关键词包括摄影、自行车、iphoneography、绿色、自然和花卉.

还有证据表明在鹿特丹和海牙市找不到集群 3，因为这两个城市的所有与轨道交通相关的向量都聚集到集群 0。您可以在下面找到这两个城市的集群地图图片：

我的问题是我的分析是否合理？但是，两个相同主题的集群怎么会分开呢？为什么他们不聚集在一起？