精确召回曲线是否具有恒定的形状/模式?

数据挖掘 机器学习 评估
2022-02-11 21:50:27

我知道 ROC 曲线总是看起来像一个楼梯形状,我可以评估 ROC 的 AUC。而且我知道我可以计算 ROC 曲线的 AUC 来比较哪个模型更好。我想知道的是:

  • 精确召回曲线是否具有恒定的形状/模式?
  • 我可以计算 PR 曲线的 AUC 来比较哪个模型更好吗?
  • 如果不是,您如何通过 PR 曲线比较模型?
2个回答

我想知道 PR 曲线(Precision-Recall 曲线)是否具有恒定的形状(模式)?

对于比随机更好的模型(ROC 高于 tpr = fpr 线),大多数情况下,准确率和召回率大致成反比关系。因此,我们应该预期(精度,召回)曲线通常会降低(查看这篇关于精度和召回之间关系的帖子)。

我可以计算 PR 曲线的 AUC 来比较哪个模型更好吗?

是的。当测试集中的类不平衡时(例如,查看此博客此 Kaggle 笔记本此 2015 论文),它甚至优于 AUC(ROC )。这是来自参考博客的图片

在此处输入图像描述

这表明,与 ROC(左)不同,PRC(右)对不平衡类具有鲁棒性。

这是引用的 Kaggle 笔记本的引述(括号中的文字由我添加):

对于高度不平衡的数据,ROC 曲线不是一个很好的直观说明,因为当总实负数很大时,误报率(误报/总实负数)不会急剧下降[即,不会产生具有较小 AUC 的较低曲线] [即,负类比正类大得多]

而精度(真阳性/(真阳性+假阳性))对假阳性高度敏感,并且不受大的总真实阴性分母的影响。

如下图所示

在此处输入图像描述

强调黑色模型(黑色曲线),它在中华民国被证明是强大的,但在中国却没有那么强大;鉴于负正比约为 600(当类平衡时,该比应为 1)。

完美的 PR 曲线在右上角。您可以计算计算 PR 曲线的 AUC 以比较模型,并且类似于 AUROC,PR 曲线的 AU 越高越好。另一种选择是在那里选择一个截止值并比较方法。

http://www.chioka.in/differences-between-roc-auc-and-pr-auc/