AUPRC 与 AUC-ROC?

机器算法验证 分类 奥克
2022-03-16 14:22:02

关于曲线下面积(AUC),我遇到了两个不同的术语:

  • ROC AUC:ROC(接收器操作特性)曲线下的面积
  • AUPRC:精确召回曲线下的区域

他们在谈论同样的事情吗?

  • 如果不是,它们是否对所有可能的数据集共享相似的值?
  • 如果仍然没有,ROC AUC 和 AUPRC 强烈反对的数据集示例将会很棒。
1个回答

ROC AUC 是曲线下的面积,其中 x 是假阳性率 (FPR),y 是真阳性率 (TPR)。

PR AUC 是曲线下的面积,其中 x 是召回率,y 是精度。

召回 = TPR = 灵敏度。然而精度=PPV FPR。

  • FPR = P(T+|D-)
  • TPR = P(T+|D+)
  • PPV = P(D+|T+)

所以这些是非常不同的曲线。

他们在谈论同样的事情吗?

并不真地。两者都在技术上评估“歧视”而不是“校准”。

如果不是,它们是否对所有可能的数据集共享相似的值?

如果仍然没有,ROC AUC 和 AUPRC 强烈反对的数据集示例将会很棒。

一个例子是最不平衡的数据集。PPV 取决于流行率,因此在流行率较低的情况下,它会与 ROC 曲线的 TPR/FPR 不一致。

这可能会有所帮助(我认为数字加起来,但不确定,但它应该显示 PPV 和 FPR 之间的区别):

考虑 FPR = 1-特异性 =1TNTN+FP

误报可能很低。换句话说,相对于TN,FP很少。考虑一个具有 1000 TN 和 50 TP 的数据集。即使算法错误分类 50 FP,FPR 也只是 1 - 1000/(1000+50)。因此,假设灵敏度良好,ROC 下的面积会很高。

然而,现在考虑

PPV =TPTP+FP

假设我们得到了每个正例都是正确的,但也有上面的 FP。在上面的例子中,我们有 PPV = 50/ (50+50) = 0.5!

因此,精确召回下的区域将非常低。所以从某种意义上说,PPV受FP绝对数量的影响。FPR 仅受 FP 数量相对于 TN 数量的影响。