为什么 ROC 曲线更适合不平衡的数据集?

数据挖掘 机器学习 分类
2022-03-01 07:57:24

我最近读过这个:

“ AUC(Area Under Curve) 适用于类别不平衡的分类问题。假设任务是从语音中检测痴呆症,99% 的人没有痴呆症,只有 1% 的人患有痴呆症。那么你可以提交一个分类器,总是输出“没有痴呆”,这将达到 99% 的准确率。看起来你的 99% 准确率的分类器很好,但实际上它完全没用。使用 AUC 评分,你的分类器将得分 0.5。

有人可以解释为什么它达到0.5吗?如果 99% 为负数并且我们始终输出“否”,那是不是意味着 TruePositiveRate 将非常高而 FalsePositiveRate 非常低,从而导致曲线下面积接近 1?

2个回答

由于以下原因,AUC 达到 0.5:

Sensitivity=TruePositivesTruePositives+FalseNegatives

Specificity=TrueNegativesTrueNegatives+FalseNegatives

在你的情况下:

Sensitivity=9999=1

Specificity=00=0

1Specificity=1

请记住,X 轴是 1-Specificity。

重点(1,1)位于使 AUC 等于 0.5 的对角线上

如果你用任何其他规则来尝试这个练习,比如“对所有患者说‘是’痴呆症”,你就会明白这一点(0,0)并加入这些点,你将得到对角线。

根据这个答案,对于不平衡的数据集,ROC 曲线比简单的精度要好,但它们仍然不好。最好使用精确召回曲线。