ROC 曲线显示不平衡数据集的奇怪结果

数据挖掘 scikit-学习 分类器
2022-02-26 14:51:37

我有一个带有严重不平衡数据集的分类器(每个正面标签有 1000 个负面标签。)

我正在运行 GradientBoostingClassifier 并取得了一定的成功(AUC .75),但曲线看起来很奇怪:

在此处输入图像描述

关于什么会导致曲线具有这种行为的任何好主意?

2个回答

Davis 和 Goadrich 在他们的论文中解释了 ROC 和 PR 曲线之间的关系在存在高度不平衡的数据的情况下,始终建议使用 PR 曲线而不是 ROC 曲线。

回到你的 ROC 曲线的行为,似乎你没有更多的阈值点!我也同意 Dan 的观点,做 K-fold CV。

Davis, J. 和 Goadrich, M.,2006 年 6 月。Precision-Recall 和 ROC 曲线之间的关系。在第 23 届机器学习国际会议论文集上(第 233-240 页)。ACM。

我认为你的一个或几个正面例子有一些预测因子 Q 也适用于很多负面例子。因为你的正面例子太少,所以没有太多可以将好的预测因素与平庸的预测因素区分开来。当你到达验证集时,Q 一定比它在训练集中应用了更大比例的负样本。

为了缓解这种情况,请尝试 n 折交叉验证。