从我在网上做的一些阅读中,我了解到有多种方法可以确定不同聚类算法使用的“相似性”。我很好奇在数据集上运行多个聚类算法/方法(即分层 w/Ward、单链接、质心等,甚至可能是 K-means)是否是一种好习惯,以及是否有一些自动化的方法来获得“集群的共识”。换句话说,要获得一些正确的项目聚集在一起的信心。倾向于使用各种方法聚集在一起的项目将被认为是有效的。例如,在我下面的示例中,G 和 Z 倾向于使用多种方法聚集在一起,就像 S 和 F 一样。
标签 = 我要聚类的内容;X & Y 是我用来聚类的变量;Cluster1-3 是三种聚类算法的结果。
编辑:我删除了一个关于我计划使用的实际数据集可能有多大的旁注,以免影响主要问题。