二元分类器得分的前 2% 是 100% 类 1

数据挖掘 二元分类
2022-03-09 11:40:47

我有一个二进制分类模型 (Xgboost),它应该可以预测客户是否会购买服务。

总体而言,这些指标令人满意~.67 AUC、~30% 的精度和~40% 的召回率@max F1,性能在样本和时间之外保持良好。

正类的总体比例为 0.13 (~13%)

然而,有一些事情让我感到不安,前 2700 个分数(总分 150K)是 100% 的第 1 类,这可能表明某种目标数据泄漏回特征中。

是否有某种二项式检验来检查异常情况的可能性?

1个回答

这在我看来完全正常。

在一天结束时,预测分数(或概率)应该代表一个实例为正的可能性,因此人们期望在最高预测分数中正实例的比例尽可能高。

特别是数据集可能包含易于正确分类为正面的实例,因此模型在逻辑上捕获此类模式并为实例分配高分。这甚至可能是由某些特定值直接暗示正面实例的一些特征引起的,但这并不一定意味着存在任何数据泄漏:如果这些信息在特征中“合法”可用,则没有理由该模型不使用它。所以唯一的问题是任务是否设计得当,但通常这不能从数据中推断出来。

是否有某种二项式检验来检查异常情况的可能性?

有一些测试可以检查这种情况是否偶然发生的可能性,但在这种情况下它们没有意义:根据定义,分类器预测的分数不是随机的(至少它们不应该是随机的),因此显着性测试将明确拒绝原假设。这也不能证明任何数据泄漏,这正是我们对分类器的期望。换句话说,如果分类器给出的分数真的是随机的,那么分类器就不会完成它的工作,它的性能会很糟糕。