您如何解释以下 ROC 和 PRC 曲线?

数据挖掘 分类
2022-02-15 18:49:27

您如何解释以下 ROC 和 PRC 曲线?

例如,我觉得很奇怪,当召回率增加时,精确度实际上会增加。这甚至可能吗?

在此处输入图像描述 在此处输入图像描述

干杯

1个回答

我的解释是,数据可以描述为以下三组,按预测的递减顺序为正:

  • 大量可以“轻松”预测为正例的正例,没有误报
  • 然后是大量的负面实例
  • 然后是较少数量的正实例,这些实例被预测为比负实例更不可能是正实例

例如,它可能看起来像这样:

<predicted probability> <true class>
       1                     P
      0.9                    P
      ...                   ...
      0.4                    P

      0.38                   N
      ...                   ...
      0.14                   N

      0.11                   P
      ...                   ...
      0.05                   P

这种配置可以解释清晰可见的三个阶段。可能还有其他方式会发生这种情况,但我想不出与这个解释有什么不同(我可能错了)。

请注意,这就是第三组准确率和召回率都增加的原因:因为阈值已经超过了所有真正的负例(即所有可能的 FP 错误都已经产生),添加这些真正的正例会增加召回率(更多的 TP 案例)不降低精度(不再有 FP)。这确实非常不寻常,但并非不可能。

这里有趣的是调查为什么这第三组正例被完全错误分类:它们不仅与负例(常见情况)混淆,而且被预测为比真正的负例“更负”。这很奇怪:好像有两组非常不同的正面实例,分类器无法在正面/负面连续体的同一侧预测。但令人鼓舞的是分类器可以很好地区分这三个组,这意味着它可能是可以修复的。