精确召回曲线下的面积

数据挖掘 分类 阶级失衡 奥克
2022-02-18 10:45:41

对于使用 AutoML 构建的分类器,我得到了以下精确召回曲线。大多数 Precisio-Recall 曲线倾向于从 (0, 1) 开始向 (1,0) 移动。但我的正好相反。但我觉得,类似于 ROC 曲线,得到一个朝向 (1,1) 的 PR 曲线实际上很好,这种理解是错误的吗?如果你得到这样的 PR 曲线,你会如何解释结果?它是一个好模型吗?如果它不是一个好的模型,为什么?我需要更正我的数据吗?

注意:该数据集用于欺诈检测,因此正负类不平衡。在此处输入图像描述

1个回答

发生的事情是这样的:

  • 当阈值非常高时,只有极少数实例被预测为正,精度约为 0.5。召回率非常低,因为只捕获了一小部分正面实例。
  • 随着阈值的降低,第一精度会降低,因为主要包括误报(FP)。由于添加了一些 TP,召回率略有增加。
  • 然后随着阈值的不断降低,准确率和召回率都增加:预测正数的比例增加,带来更多的 TP,而 FP 没有明显增加太多(因此准确率增加),当然 FN 减少(因此召回率增加)。

显然,不平衡很严重(很少有正面案例),导致形状异常。我认为该模型没有任何问题(至少没有证据表明该模型)。唯一值得怀疑的是,我不确定这条 PR 曲线是否有用,因为可以直接最大化 F1 分数(例如)以获得最佳阈值。我也不相信 PR 曲线下的区域非常有趣。但没有严重的问题。