哪个统计测试告诉哪个分类器表现得比另一个更好?

数据挖掘 机器学习 分类 统计数据 表现 描述性统计
2021-10-07 15:46:10

我有 3 个分类器:A、B 和 C。根据准确度、特异性、灵敏度、f-score 和 g-mean,分类器 B 表现最好。现在我想统计验证这个说法。我该怎么做?McNemar 的测试是否足以验证它?哪个统计测试会告诉我哪个分类器比其他分类器更好?如何?

2个回答

Cochran 的 Q 检验

是 McNemars 检验的概括,可用于查看是否有一个真正更好的分类器用于所选度量。您当然也可以进行成对的 Mcnemare 测试并从中得出结论。

笔记:

这些东西很贵

Janez Demsar 发表了一篇关于不同分类器比较的文章。当您使用多个数据集来检查哪种算法性能最好时,假设质量测量来自正态分布可能会有风险,因此不一定建议使用 ANOVA。(引用约 8k 次,这是一篇关于分类器比较的规范文章。)

非参数检验(如Friedmann 检验)可用于获得 F 分数。然后可以应用 post-hoc 来测试一种算法是否优于其他算法。请记住,检查 n 个不同的算法意味着与根据参考(众所周知的算法)检查算法不同的测试。在前一种情况下, Nemenyi 测试表现良好,在后一种情况下,Bonferroni-Dunn 测试(第 3.2.2 章)。