比较基于 AUROC 或准确性的分类器?

机器算法验证 机器学习 分类 奥克
2022-03-25 02:13:31

我有一个二元分类问题,我在上面试验了不同的分类器:我想比较分类器。哪一个是更好的测量 AUC 或准确度?为什么?

Raondom Forest: AUC: 0.828  Accuracy: 79.6667 %
           SVM: AUC: 0.542  Accuracy: 85.6667 %
3个回答

正确分类的比例是一个不正确的评分规则,即它是由一个虚假的模型优化的。我会使用称为 Brier 分数的二次正确评分规则,或一致性概率(二进制情况下 ROC 曲线下的区域)。在您的情况下,随机森林比 SVM 效果更好。Y

我认为您绝对应该研究更多的指标,而不仅仅是 AUC 和准确性。

准确度(连同敏感性和特异性)是一个非常简单但有偏见的指标,它迫使您查看绝对预测结果,并且不能对类别概率或排名的断言开放。它也没有考虑到人口,这会导致误解,因为一个模型对一个随机正确率为 95% 的人口提供 95% 的准确度并不是一个真正的好模型,即使准确度很高。

AUC 是一个很好的指标,用于断言独立于总体类别概率的模型准确性。但是,它不会告诉您有关概率估计实际上有多好的任何信息。您可以获得很高的 AUC,但仍然有非常偏斜的概率估计。这个指标比准确性更具辨别力,当与一些适当的评分规则结合使用时,肯定会为您提供更好的模型,例如另一篇文章中提到的 Brier 分数。

你可以在这里得到一个更正式的证明,虽然这篇论文是相当理论的:AUC: a Statistically Consistent and more Discrimination Measure than Accuracy

然而,有很多好的指标可用。 二元类概率估计和分类的损失函数:结构和应用是一篇很好的论文,研究了适当的评分规则,例如 Brier 分数。

另一篇关于模型性能断言指标的有趣论文是评估:从精确度、召回率和 F 测量到 ROC、知情度、标记性和相关性,这些指标占据了其他良好的性能指标,例如知情度。

总而言之,我建议查看 AUC/Gini 和 Brier 分数来断言您的模型性能,但根据您的模型的目标,其他指标可能更适合您的问题。

尊重 Harrell 博士关于正确评分指标(如 Brier 评分)的回答,如果仅给出准确度和 AUC ROC 两个选项,答案将取决于数据和所需的结果测量。

• 数据:AUC ROC 是患病率不变的;它不会因阶级不平衡而有所不同。如果您的二元分类数据集不平衡(正负示例几乎相等),您将无法从 AUC 中得知。在不平衡的情况下,准确性是一个很差的指标。

• 问题:如果只关注正确的预测,准确度就可以了。如果“未命中”的实际惩罚与“命中”相似,则准确性很好。但是,准确度不能区分错误,并且会高估算法的能力。AUC ROC 对两个模型进行了很好的比较,但这只是一个起点,因为它代表了所有潜在的操作点,而不是算法可以运行的单个操作点。具有相同 AUC ROC 的两种算法如果不相互支配,则它们在不同的操作阈值下都可以各自优越。

Powers 论文评估:从精度、召回率和 F 因子……很有帮助。更新链接。

所以,两者都不足。然而,在平衡的数据集中,在对相同数据进行测试的两种算法之间,AUC ROC 可能是比准确度更好的衡量标准。