比较两种聚类算法(尤其是基于密度的聚类)的最常见指标是什么
机器算法验证
聚类
模型评估
2022-03-03 08:41:45
1个回答
您似乎要求内部验证措施(仅使用数据而不参考其他任何内容)来比较不同的算法。这充满了危险。例如,请参见 Anony-Mousse 的答案:https ://stats.stackexchange.com/questions/88550/using-the-gap-statistic-to-compare-algorithm 。我的原始答案(如下)讨论了外部验证措施。也许它仍然有用。
这里有两种标准方法(可能还有更多)。第一种是使用黄金标准并计算聚类之间的距离或相似性。许多人使用调整后的兰德指数,但我认为信息距离方差 (VI) 或拆分/连接距离更适合于此。(例如,请参见我的答案:比较聚类:兰德指数与信息变化和此处:外部集群验证的宽恕措施)。这仍然不是直截了当的——集群可以与黄金标准一致(是子集群或超集群),这必须考虑但通常不是。我见过一个使用非常粗略的分类(大类)的案例,而其他聚类算法只是产生了更细粒度的结果(相对于这个粗略的黄金标准的子聚类)。
第二个是有某种注释——与节点相关的分类,其中每个节点可以有多个标签。在生物学中,这可能是 GO(基因本体)分类。然后可以计算每个集群的富集分数(例如使用超几何分布)(检查哪些标签在集群中被过度表示)。这也不是完全简单的(因为必须比较 P 值的集合),但如果小心的话,这两种方法肯定会提供非常丰富的信息。