如何选择分类器概率的“截止”

数据挖掘 分类 公制
2021-10-11 02:57:17

我最近使用 xgboost 在 nlp 问题中进行二进制分类。这个想法是确定一篇特定的文章是否属于作者,这是非常标准的练习。

结果以 0 到 1 之间的概率输出,并且有完全错误分类的偶然文章。

我想知道是否有一种统计方法可以为我提供概率输出的置信区间(例如,如果我考虑所有预测为 0.4 的文章,我将获得 95% 属于作者的文章),或者其他什么这有助于我做出关于截止日期的决定。

1个回答

您正在寻找的是沿着ROC 曲线的东西:

使用阈值作为决策参数,您可以观察 FPR(假阳性率:有多少不属于作者的文章将被正确分类)和 TPR(真阳性率,又称召回率:有多少真正由作者撰写的文章将被归类)。

当参数位于一端时,您会将所有文档归类为属于作者(100% 的召回率,但精度很差),另一方面,您将有 100% 的精度但召回率很差。

该图将允许您决定满足您要求的值(即,当您想要 95% 的召回率时,您的精度会受到多大影响)。您可以根据您在一个指标中的期望值(例如 95% 召回率)选择它,但实际上我只是绘制它并查看一下。您可以在 SKLearn 中使用plot_roc_curve进行操作。