我正在做一个预测二元结果的练习题。我绘制了一条 ROC 曲线,并找到了将未来预测观察值称为 1 的最佳阈值百分比。我发现这个阈值始终与原始数据中等于 1 的观察值百分比相匹配。对此有任何概念上的解释吗?
ROC曲线和最优阈值
数据挖掘
分类
2022-03-10 19:01:14
1个回答
我看到这个阈值始终与原始数据中等于 1 的观察百分比相匹配。对此有任何概念上的解释吗?
是的,尽管它总是完全匹配的事实可能是巧合,或者可能是由于样本量小。
训练数据包含一个比例标记为 1 的实例数。从 ROC 图中,您可以看到将阈值设置为某个级别的所有可能值以及由此产生的性能;对于每个可能的级别,您都可以计算相应的比例实例预测为 1:
- 如果远低于,那么系统会预测很多 0,所以会有很多假阴性错误,这会降低召回率。在这种情况下,精度很高。
- 如果远高于,那么系统预测很多1,所以有很多误报,导致精度降低。在这种情况下,召回率很高。
我假设您优化了 F1 分数,对吗?F1 分数基于准确率和召回率的乘积这一事实意味着这两个值都需要相当高,否则 F1 分数会下降。如上所示,具有非常不同的值和将导致精度或召回率低。因此,当达到最佳 F1 分数时接近.