ROC 曲线显示不平衡数据集的奇怪结果
数据挖掘
scikit-学习
分类器
2022-02-26 14:51:37
2个回答
Davis 和 Goadrich 在他们的论文中解释了 ROC 和 PR 曲线之间的关系。在存在高度不平衡的数据的情况下,始终建议使用 PR 曲线而不是 ROC 曲线。
回到你的 ROC 曲线的行为,似乎你没有更多的阈值点!我也同意 Dan 的观点,做 K-fold CV。
Davis, J. 和 Goadrich, M.,2006 年 6 月。Precision-Recall 和 ROC 曲线之间的关系。在第 23 届机器学习国际会议论文集上(第 233-240 页)。ACM。
我认为你的一个或几个正面例子有一些预测因子 Q 也适用于很多负面例子。因为你的正面例子太少,所以没有太多可以将好的预测因素与平庸的预测因素区分开来。当你到达验证集时,Q 一定比它在训练集中应用了更大比例的负样本。
为了缓解这种情况,请尝试 n 折交叉验证。
其它你可能感兴趣的问题
