比较两种聚类算法(尤其是基于密度的聚类)的最常​​见指标是什么

机器算法验证 聚类 模型评估
2022-03-03 08:41:45

在比较一种新的聚类算法时,人们总是想展示他/她的方法相对于现有和众所周知的方法的优势。走这种方式可能会误导人们忽略所提出的方法的缺点。

对于聚类结果,通常人们在一组数据集上比较不同的方法,读者可以亲眼看到聚类,并得到不同方法结果之间的差异。

有一些指标,如同质性完整性调整的兰德指数调整的相互信息V-Measure要计算这些指标,需要知道数据集的真实标签,因此我们可以使用分类数据集测试算法以获得真实标签,然后评估结果。

另一个指标,如剪影系数,仅适用于数据和聚类结果。

我想知道哪些度量是最优选的,以及是否有任何其他度量不需要数据集的真实标签。

1个回答

您似乎要求内部验证措施(仅使用数据而不参考其他任何内容)来比较不同的算法。这充满了危险。例如,请参见 Anony-Mousse 的答案:https ://stats.stackexchange.com/questions/88550/using-the-gap-statistic-to-compare-algorithm 。我的原始答案(如下)讨论了外部验证措施。也许它仍然有用。

这里有两种标准方法(可能还有更多)。第一种是使用黄金标准并计算聚类之间的距离或相似性。许多人使用调整后的兰德指数,但我认为信息距离方差 (VI) 或拆分/连接距离更适合于此。(例如,请参见我的答案:比较聚类:兰德指数与信息变化和此处:外部集群验证的宽恕措施)。这仍然不是直截了当的——集群可以与黄金标准一致(是子集群或超集群),这必须考虑但通常不是。我见过一个使用非常粗略的分类(大类)的案例,而其他聚类算法只是产生了更细粒度的结果(相对于这个粗略的黄金标准的子聚类​​)。

第二个是有某种注释——与节点相关的分类,其中每个节点可以有多个标签。在生物学中,这可能是 GO(基因本体)分类。然后可以计算每个集群的富集分数(例如使用超几何分布)(检查哪些标签在集群中被过度表示)。这也不是完全简单的(因为必须比较 P 值的集合),但如果小心的话,这两种方法肯定会提供非常丰富的信息。