数据挖掘 - 二元分类器得分的前 2% 是 100% 类 1 - 吾爱随笔录

二元分类器得分的前 2% 是 100% 类 1

数据挖掘二元分类

2022-03-09 11:40:47

我有一个二进制分类模型 (Xgboost)，它应该可以预测客户是否会购买服务。

总体而言，这些指标令人满意~.67 AUC、~30% 的精度和~40% 的召回率@max F1，性能在样本和时间之外保持良好。

正类的总体比例为 0.13 (~13%)

然而，有一些事情让我感到不安，前 2700 个分数（总分 150K）是 100% 的第 1 类，这可能表明某种目标数据泄漏回特征中。

是否有某种二项式检验来检查异常情况的可能性？

1个回答

这在我看来完全正常。

在一天结束时，预测分数（或概率）应该代表一个实例为正的可能性，因此人们期望在最高预测分数中正实例的比例尽可能高。

特别是数据集可能包含易于正确分类为正面的实例，因此模型在逻辑上捕获此类模式并为实例分配高分。这甚至可能是由某些特定值直接暗示正面实例的一些特征引起的，但这并不一定意味着存在任何数据泄漏：如果这些信息在特征中“合法”可用，则没有理由该模型不使用它。所以唯一的问题是任务是否设计得当，但通常这不能从数据中推断出来。

是否有某种二项式检验来检查异常情况的可能性？

有一些测试可以检查这种情况是否偶然发生的可能性，但在这种情况下它们没有意义：根据定义，分类器预测的分数不是随机的（至少它们不应该是随机的），因此显着性测试将明确拒绝原假设。这也不能证明任何数据泄漏，这正是我们对分类器的期望。换句话说，如果分类器给出的分数真的是随机的，那么分类器就不会完成它的工作，它的性能会很糟糕。

其它你可能感兴趣的问题

上一篇预测疾病药物下一篇预处理数据的最佳方法