ROC 曲线下面积与整体精度

机器算法验证 分类
2022-02-06 18:16:43

我对 ROC 的曲线下面积 (AUC) 和整体精度有点困惑。

  1. AUC 是否与整体准确度成正比?换句话说,当我们有更大的整体准确率时,我们肯定会获得更大的 AUC 吗?或者它们在定义上是正相关的吗?

  2. 如果它们是正相关的,为什么我们要费心在一些出版物中报告它们呢?

  3. 在实际案例中,我执行了一些分类任务,得到的结果如下:分类器 A 的准确度为 85%,AUC 为 0.98,分类器 B 的准确度为 93%,AUC 为 0.92。问题是,哪个分类器更好?是否可以获得与这些类似的结果(或者我的结果是否表明我的实现中存在错误)?

4个回答

虽然这两个统计量度可能是相关的,但它们测量了分类器的不同质量。

奥罗克

曲线下面积(AUC)等于分类器将随机选择的正例排名高于随机选择的负例的概率。它衡量分类器根据它们属于正类的程度对一组模式进行排序的技能,但没有实际将模式分配给类。

总体准确度还取决于分类器对模式进行排序的能力,还取决于它在排序中选择阈值的能力,如果高于阈值则将模式分配给正类,如果低于阈值则分配给负类。

因此,具有较高 AUROC 统计量(所有条件相同)的分类器也可能具有更高的整体准确度,因为模式的排名(AUROC 测量的)对 AUROC 和整体准确度都有好处。但是,如果一个分类器对模式进行了很好的排序,但选择的阈值很差,它可能具有较高的 AUROC,但总体准确度较差。

实际使用

在实践中,我喜欢收集总体准确度、AUROC 以及分类器是否估计类成员的概率、交叉熵或预测信息。然后我有一个衡量其执行硬分类的原始能力的指标(假设假阳性和假阴性错误分类成本相等,并且样本中的类频率与操作使用中的类频率相同 - 一个很大的假设!),衡量模式排名能力的指标和衡量排名作为概率校准的程度的指标。

对于许多任务,操作错误分类成本是未知的或可变的,或者操作类别频率与训练样本中的频率不同或可变。在这种情况下,整体准确度通常毫无意义,而 AUROC 是更好的性能指标,理想情况下,我们需要一个输出经过良好校准的概率的分类器,以便我们可以在操作使用中补偿这些问题。本质上,哪个指标重要取决于我们试图解决的问题。

AUC(基于 ROC)和整体准确率似乎不是同一个概念。

总体准确度基于一个特定的切点,而 ROC 会尝试所有切点并绘制灵敏度和特异性图。因此,当我们比较整体准确度时,我们是在比较基于某个切点的准确度。整体精度因不同的切点而异。

AUC 真的是非常有用的指标吗?

我会说预期成本是更合适的衡量标准。

然后,所有 False Positives 的成本为 A,所有 False Negatives 的成本为 B。其他类别可能很容易比其他类别更昂贵。当然,如果您在各个子组中存在错误分类的成本,那么它将是更强大的指标。

通过在 x 轴上绘制分界点,然后在 y 轴上绘制预期成本,您可以看到哪个分界点使预期成本最小化。

正式地,您有一个损失函数 Loss(cut-off|data,cost) ,您尝试将其最小化。

就像所有答案都已发布:ROC并且accuracy从根本上说是两个不同的概念。

一般来说,ROC描述一个分类器的判别能力,独立于类分布和不等的预测错误成本(假阳性和假阴性成本)。

度量 likeaccuracy是根据test datasetor的类分布计算的cross-validation,但是当您将分类器应用于现实生活数据时,此比率可能会发生变化,因为基础类分布已更改或未知。另一方面,TP rate用于FP rate构造AUC的不会受到类分布移位的影响。