如何使用多种聚类方法评估/验证集群

机器算法验证 聚类
2022-03-28 19:14:38

从我在网上做的一些阅读中,我了解到有多种方法可以确定不同聚类算法使用的“相似性”。我很好奇在数据集上运行多个聚类算法/方法(即分层 w/Ward、单链接、质心等,甚至可能是 K-means)是否是一种好习惯,以及是否有一些自动化的方法来获得“集群的共识”。换句话说,要获得一些正确的项目聚集在一起的信心。倾向于使用各种方法聚集在一起的项目将被认为是有效的。例如,在我下面的示例中,G 和 Z 倾向于使用多种方法聚集在一起,就像 S 和 F 一样。

标签 = 我要聚类的内容;X & Y 是我用来聚类的变量;Cluster1-3 是三种聚类算法的结果。

在此处输入图像描述

编辑:我删除了一个关于我计划使用的实际数据集可能有多大的旁注,以免影响主要问题。

1个回答

正如 daniellopez46 指出的那样,我认为您正在考虑共识聚类你基本上形成了一个不同聚类运行的集合。这里有点奇怪的是,您希望集成包含来自不同聚类方法的结果,这可能会非常具有误导性。我这样说是因为与监督学习不同,无监督学习总是或多或少地具有主观成分,因为您需要根据自己的数据了解您认为自己会感兴趣的分组。详细说明一下,聚类是根据观察结果与特征空间中其他观察结果的关系来标记观察结果。不同的聚类算法会以完全不同的方式理解这一点,因为它们正在寻找不同的东西。根据您正在寻找的拓扑类型,您(作为人类)会对某个聚类算法在某些数据集上产生的结果感到满意,而对其在另一个数据集上所做的完全不满意。看着我最近回答的这个问题,您可以在其中看到不同聚类技术如何处理相同数据集的图表。

另一件需要注意的事情是,共识聚类仍然很新,基本上只是在探索中,所以不要把它当作灵丹妙药。