我有这 200 个向量,它们使用基于 TF-IDF(词频 - 逆文档频率)给出的关键字权重相似性的 K-means 聚类进行聚类。这些向量相对于阿姆斯特丹、鹿特丹、海牙和乌得勒支四个城市的向量进行了聚类。我选择了 k-cluster centroid = 6,这意味着我有集群 0 到集群 5。在每个集群上,我还计算了关键字的数字权重的平均数,这样我就得到了最相关和最不相关的一组关键字,就像下图:
相关关键字和最不相关的关键字都可以帮助解释集群的含义。例如,集群 0 与铁路运输相关,因为最相关的关键字包括电车、线路、电车轨道、车站和铁路。最不相关的关键词强调对聚类 0 的解释,其中关键词包括摄影、自行车、iphoneography、绿色、自然和花卉。
问题是在阿姆斯特丹市,没有与轨道交通有关的集群 0 。在我的分析意见中,这是因为所有与铁路运输相关的向量都聚集到集群 3,这也与铁路运输有关(基于我对两个集群上最相关和最不相关的关键字的解释)。集群 3 也与铁路运输有关,因为最相关的关键字包括电车、线路、电车轨道、车站和铁路。最不相关的关键词强调对集群 0 的解释,其中关键词包括摄影、自行车、iphoneography、绿色、自然和花卉.
还有证据表明在鹿特丹和海牙市找不到集群 3,因为这两个城市的所有与轨道交通相关的向量都聚集到集群 0。您可以在下面找到这两个城市的集群地图图片:

我的问题是我的分析是否合理?但是,两个相同主题的集群怎么会分开呢?为什么他们不聚集在一起?



