数据挖掘 - 如果测试数据不平衡，ROC AUC 得分会更好 - 吾爱随笔录

如果测试数据不平衡，ROC AUC 得分会更好

数据挖掘阶级失衡分数

2022-02-21 09:12:03

我有一个不平衡的数据集，我正在使用XGBoost二进制分类。我将下采样与目标和一种热编码一起用于训练数据。对于测试数据，我曾经只使用编码并使其不平衡，并且曾经尝试使用平衡的测试数据集。

ROC AUC score不平衡的测试数据比平衡的测试数据要高得多。这怎么可能？我以为ROC AUC分数应该没有什么区别？

1个回答

ROC 通常会报告不平衡数据集的更高分数，因为它没有考虑错误发现。因此，建议仅在正负集大小大致相等时才使用 ROC。否则，建议改为计算 Precision-Recall 曲线下的区域。

您可以在此处阅读一些有关原因的信息。

https://machinelearningmastery.com/roc-curves-and-precision-recall-curves-for-classification-in-python/

但是，如果类分布中存在较大的偏斜，ROC 曲线可能对算法的性能表现出过于乐观的看法。[...] Precision-Recall (PR) 曲线，通常用于信息检索，已被引用为 ROC 曲线的替代方案，用于类分布中具有较大偏差的任务。

— Precision-Recall 与 ROC 曲线之间的关系，2006 年。

其它你可能感兴趣的问题

上一篇使用 ANN 预测几个属性下一篇强化学习与迁移学习？