PR曲线下面积的解释

机器算法验证 机器学习 精确召回
2022-02-15 12:39:30

我目前正在比较三种方法,我有准确度、auROC 和 auPR 作为指标。我有以下结果:

方法 A - acc:0.75,auROC:0.75,auPR:0.45

方法 B - acc:0.65,auROC:0.55,auPR:0.40

方法 C - acc:0.55,auROC:0.70,auPR:0.65

我对准确性和 auROC 有很好的理解(为了记住好,我经常尝试想出一个句子,比如“auROC = 表征能够很好地预测正类的能力”,虽然不完全正确,但它有助于我记住)。我以前从未有过 auPR 数据,虽然我了解它是如何构建的,但我无法获得它背后的“感觉”。

事实上,我不明白为什么方法 C 的 auPR 得分非常高,而准确率和 auPR 却很差/平均。

如果有人可以通过简单的解释帮助我更好地理解它,那将非常棒。谢谢你。

1个回答

ROC和PR曲线的一个轴是相同的,即TPR:在数据的所有阳性病例中,有多少阳性病例被正确分类。

另一个轴是不同的。ROC 使用 FPR,即在数据中的所有负数中有多少被错误地声明为正数。PR 曲线使用精确度:在所有被预测为正数的数据中,有多少真正的正数。所以第二个轴的基数不同。ROC 使用数据中的内容,PR 使用预测中的内容作为基础。

当数据中存在高度不平衡时,PR 曲线被认为提供更多信息,请参阅这篇论文http://pages.cs.wisc.edu/~jdavis/davisgoadrichcamera2.pdf