我理解高度不平衡的数据集——我们需要寻找精确召回与 ROC AUC 来更好地判断模型。
我的问题是 PR AUC 的范围是多少,低于该范围的模型是坏的?我当前模型的 ROC AUC > 90%,而 PR AUC 仅为 40%。由于 PR AUC 低或 PR AUC 的范围与 ROC AUC 不同,模型是否不好?
我理解高度不平衡的数据集——我们需要寻找精确召回与 ROC AUC 来更好地判断模型。
我的问题是 PR AUC 的范围是多少,低于该范围的模型是坏的?我当前模型的 ROC AUC > 90%,而 PR AUC 仅为 40%。由于 PR AUC 低或 PR AUC 的范围与 ROC AUC 不同,模型是否不好?
你怀疑你的结果是正确的。虽然如果 AUCROC 接近于(粗略地说,模型对随机正例的排名高于随机负例的概率),相同的原理与 AUCPR 的情况无关。这是因为 AUCPR 的基线不是 而是由我们样本中阳性的比例决定的。这意味着在处理不平衡样本时,我们的实际基线可能会非常低;可以在此处的 CV.SE 线程上阅读有关此问题的更详细说明:精确召回曲线中的“基线”是什么。
如果我们想对 PR 分析进行更详细的解释,我们可以使用所谓的Precision-Recall Gain曲线;这些使我们能够将 AUCPRG 视为预期的分数。有关 CV.SE 线程的详细信息 gere:Precision Recall 曲线下的区域 - 类似于 AUROC 的解释?.
回顾一下,AUCROC 的模型~和 AUCPR ~还不错,或者对那件事有好处。如果没有性能参考点,这些数字就不太匹配,尤其是 AUCPR 也不适合简单的直接解释。