我想知道有时,为了验证模型,使用 aucPR 而不是 aucROC 不是更好吗?这些案例是否仅取决于“领域和业务理解”?
特别是,我正在考虑“不平衡类问题”,其中使用 aucPR 似乎更合乎逻辑,因为召回率和精度是该问题的常用指标。
我想知道有时,为了验证模型,使用 aucPR 而不是 aucROC 不是更好吗?这些案例是否仅取决于“领域和业务理解”?
特别是,我正在考虑“不平衡类问题”,其中使用 aucPR 似乎更合乎逻辑,因为召回率和精度是该问题的常用指标。
是的,您是正确的,接收器操作员特征曲线 ( ROC-AUC ) 曲线下面积与精确召回曲线 ( PR-AUC ) 曲线下面积之间的主要区别在于其对不平衡类的易处理性. 它们非常相似,并且已显示包含基本相同的信息,但是 PR 曲线稍微有些挑剔,但绘制良好的曲线可以提供更完整的图像。PR-AUC 的问题在于它难以在 PR 曲线中的点之间进行插值,因此实现曲线下面积的数值积分变得更加困难。
引用戴维斯 2006 年的摘要:
接收算子特征 (ROC) 曲线通常用于呈现机器学习中二元决策问题的结果。然而,在处理高度偏斜的数据集时,Precision-Recall (PR) 曲线可以提供更多关于算法性能的信息。我们表明 ROC 空间和 PR 空间之间存在深层联系,因此当且仅当曲线在 PR 空间中占主导地位时,曲线在 ROC 空间中占主导地位。一个推论是可实现的 PR 曲线的概念,它的性质很像 ROC 空间中的凸包;我们展示了一种计算这条曲线的有效算法。最后,我们还注意到两种曲线的差异对算法设计很重要。例如,在 PR 空间中,在点之间进行线性插值是不正确的。此外,