精确召回曲线下的面积
数据挖掘
分类
阶级失衡
奥克
2022-02-18 10:45:41
1个回答
发生的事情是这样的:
- 当阈值非常高时,只有极少数实例被预测为正,精度约为 0.5。召回率非常低,因为只捕获了一小部分正面实例。
- 随着阈值的降低,第一精度会降低,因为主要包括误报(FP)。由于添加了一些 TP,召回率略有增加。
- 然后随着阈值的不断降低,准确率和召回率都增加:预测正数的比例增加,带来更多的 TP,而 FP 没有明显增加太多(因此准确率增加),当然 FN 减少(因此召回率增加)。
显然,不平衡很严重(很少有正面案例),导致形状异常。我认为该模型没有任何问题(至少没有证据表明该模型)。唯一值得怀疑的是,我不确定这条 PR 曲线是否有用,因为可以直接最大化 F1 分数(例如)以获得最佳阈值。我也不相信 PR 曲线下的区域非常有趣。但没有严重的问题。
其它你可能感兴趣的问题