AUC 是正确分类每个类中随机选择的实例的概率吗?

机器算法验证 分类 奥克
2022-03-18 22:44:43

我在一篇论文中读到了这个标题,并且从未在其他任何地方看到过以这种方式描述的 AUC。这是真的?有证据或简单的方法可以看到这一点吗?

图 2 显示了以接收者操作特征曲线 (AUC) 下面积表示的二分变量的预测准确度,这相当于正确分类两个随机选择的用户(例如男性和女性)的概率)。

在我看来,这不可能是真的,因为对于 AUC = 0.5,以上表明一个人有 50% 的概率正确预测连续两次抛硬币,但实际上,你只有 25% 的机会正确预测连续两次抛硬币。至少,这就是我对这句话的看法。

4个回答

报价略有错误。正确的说法是 ROC AUC 是随机选择的正例比随机选择的负例排名更高的概率。这是由于 ROC AUC 与秩的 Wilcoxon 检验之间的关系。

您会发现 Tom Fawcett “ ROC 分析简介”中的讨论很有启发性。

作者的描述并不完全准确。ROC曲线下的面积实际上等于随机选择的正例比随机选择的负例具有更高风险评分的概率。这不一定与分类有关,它只是分数分布之间分离的度量。

对于您的硬币示例,假设您有两个硬币,每个硬币都有一个与之相关的分数。然后你翻转两个硬币,直到一个正面和另一个反面出现(因为我们正在调整不同的结果)。这相当于有一个模型进行随机评分,出现正面的硬币得分较高(或较低)的概率为 1/2。

你读过的描述是正确的,虽然我不喜欢它的措辞。ROC (AUC) 曲线下的面积是从第 2 类中将一对随机个体正确分类到第 1 类的概率。它是基于排名的统计量,因此如果您必须猜测其中一个个体的排名是否高于另一个,如果随机猜测,那只有 50% 的机会。AUC 与 Wilcoxon 符号秩检验统计量相同[1],这可以用来说明其含义。

[1]:梅森和格雷厄姆 (2002)。相对操作特征 (ROC) 和相对操作水平 (ROL) 曲线下方的区域:统计意义和解释。皇家气象学会季刊。128:2145–2166。

正如其他人指出的那样,AUC 表示从正类中随机选择的示例从分类器​​中获得的分数高于从负类中随机选择的示例的概率。

有关此属性的证明,请参见: 如何推导出 AUC 的数学公式?

或用于该答案的来源:D. Hand,2009,测量分类器性能:ROC 曲线下面积的连贯替代方案