机器算法验证 - 比较两种聚类算法（尤其是基于密度的聚类）的最常见指标是什么 - 吾爱随笔录

比较两种聚类算法（尤其是基于密度的聚类）的最常见指标是什么

机器算法验证聚类模型评估

2022-03-03 08:41:45

在比较一种新的聚类算法时，人们总是想展示他/她的方法相对于现有和众所周知的方法的优势。走这种方式可能会误导人们忽略所提出的方法的缺点。

对于聚类结果，通常人们在一组数据集上比较不同的方法，读者可以亲眼看到聚类，并得到不同方法结果之间的差异。

有一些指标，如同质性、完整性、调整的兰德指数、调整的相互信息和V-Measure。要计算这些指标，需要知道数据集的真实标签，因此我们可以使用分类数据集测试算法以获得真实标签，然后评估结果。

另一个指标，如剪影系数，仅适用于数据和聚类结果。

我想知道哪些度量是最优选的，以及是否有任何其他度量不需要数据集的真实标签。

1个回答

您似乎要求内部验证措施（仅使用数据而不参考其他任何内容）来比较不同的算法。这充满了危险。例如，请参见 Anony-Mousse 的答案：https ://stats.stackexchange.com/questions/88550/using-the-gap-statistic-to-compare-algorithm 。我的原始答案（如下）讨论了外部验证措施。也许它仍然有用。

这里有两种标准方法（可能还有更多）。第一种是使用黄金标准并计算聚类之间的距离或相似性。许多人使用调整后的兰德指数，但我认为信息距离方差 (VI) 或拆分/连接距离更适合于此。（例如，请参见我的答案：比较聚类：兰德指数与信息变化和此处：外部集群验证的宽恕措施）。这仍然不是直截了当的——集群可以与黄金标准一致（是子集群或超集群），这必须考虑但通常不是。我见过一个使用非常粗略的分类（大类）的案例，而其他聚类算法只是产生了更细粒度的结果（相对于这个粗略的黄金标准的子聚类）。

第二个是有某种注释——与节点相关的分类，其中每个节点可以有多个标签。在生物学中，这可能是 GO（基因本体）分类。然后可以计算每个集群的富集分数（例如使用超几何分布）（检查哪些标签在集群中被过度表示）。这也不是完全简单的（因为必须比较 P 值的集合），但如果小心的话，这两种方法肯定会提供非常丰富的信息。

其它你可能感兴趣的问题

上一篇插入符号::confusionMatrix 中 McNemar 测试的重要性下一篇好的 PCA 教学示例？

比较两种聚类算法（尤其是基于密度的聚类）的最常​​见指标是什么

比较两种聚类算法（尤其是基于密度的聚类）的最常见指标是什么