PR AUC < 50% 而 ROC AUC > 90% - 模型好还是坏?

机器算法验证 模型 模型评估 奥克 精确召回
2022-04-16 09:33:09

我理解高度不平衡的数据集——我们需要寻找精确召回与 ROC AUC 来更好地判断模型。

我的问题是 PR AUC 的范围是多少,低于该范围的模型是坏的?我当前模型的 ROC AUC > 90%,而 PR AUC 仅为 40%。由于 PR AUC 低或 PR AUC 的范围与 ROC AUC 不同,模型是否不好?

1个回答

你怀疑你的结果是正确的。虽然如果 AUCROC 接近于0.50(粗略地说,模型对随机正例的排名高于随机负例的概率),相同的原理与 AUCPR 的情况无关。这是因为 AUCPR 的基线不是 0.50而是由我们样本中阳性的比例决定的。这意味着在处理不平衡样本时,我们的实际基线可能会非常低;可以在此处的 CV.SE 线程上阅读有关此问题的更详细说明:精确召回曲线中的“基线”是什么

如果我们想对 PR 分析进行更详细的解释,我们可以使用所谓的Precision-Recall Gain曲线;这些使我们能够将 AUCPRG 视为预期的F1分数。有关 CV.SE 线程的详细信息 gere:Precision Recall 曲线下的区域 - 类似于 AUROC 的解释?.

回顾一下,AUCROC 的模型~90%和 AUCPR ~40%还不错,或者对那件事有好处。如果没有性能参考点,这些数字就不太匹配,尤其是 AUCPR 也不适合简单的直接解释。