您如何解释以下 ROC 和 PRC 曲线?
数据挖掘
分类
鹏
2022-02-15 18:49:27
1个回答
我的解释是,数据可以描述为以下三组,按预测的递减顺序为正:
- 大量可以“轻松”预测为正例的正例,没有误报
- 然后是大量的负面实例
- 然后是较少数量的正实例,这些实例被预测为比负实例更不可能是正实例。
例如,它可能看起来像这样:
<predicted probability> <true class>
1 P
0.9 P
... ...
0.4 P
0.38 N
... ...
0.14 N
0.11 P
... ...
0.05 P
这种配置可以解释清晰可见的三个阶段。可能还有其他方式会发生这种情况,但我想不出与这个解释有什么不同(我可能错了)。
请注意,这就是第三组准确率和召回率都增加的原因:因为阈值已经超过了所有真正的负例(即所有可能的 FP 错误都已经产生),添加这些真正的正例会增加召回率(更多的 TP 案例)不降低精度(不再有 FP)。这确实非常不寻常,但并非不可能。
这里有趣的是调查为什么这第三组正例被完全错误分类:它们不仅与负例(常见情况)混淆,而且被预测为比真正的负例“更负”。这很奇怪:好像有两组非常不同的正面实例,分类器无法在正面/负面连续体的同一侧预测。但令人鼓舞的是分类器可以很好地区分这三个组,这意味着它可能是可以修复的。
其它你可能感兴趣的问题

