关于曲线下面积(AUC),我遇到了两个不同的术语:
- ROC AUC:ROC(接收器操作特性)曲线下的面积
- AUPRC:精确召回曲线下的区域
他们在谈论同样的事情吗?
- 如果不是,它们是否对所有可能的数据集共享相似的值?
- 如果仍然没有,ROC AUC 和 AUPRC 强烈反对的数据集示例将会很棒。
关于曲线下面积(AUC),我遇到了两个不同的术语:
他们在谈论同样的事情吗?
ROC AUC 是曲线下的面积,其中 x 是假阳性率 (FPR),y 是真阳性率 (TPR)。
PR AUC 是曲线下的面积,其中 x 是召回率,y 是精度。
召回 = TPR = 灵敏度。然而精度=PPV FPR。
所以这些是非常不同的曲线。
他们在谈论同样的事情吗?
并不真地。两者都在技术上评估“歧视”而不是“校准”。
如果不是,它们是否对所有可能的数据集共享相似的值?
不
如果仍然没有,ROC AUC 和 AUPRC 强烈反对的数据集示例将会很棒。
一个例子是最不平衡的数据集。PPV 取决于流行率,因此在流行率较低的情况下,它会与 ROC 曲线的 TPR/FPR 不一致。
这可能会有所帮助(我认为数字加起来,但不确定,但它应该显示 PPV 和 FPR 之间的区别):
考虑 FPR = 1-特异性 =
误报率可能很低。换句话说,相对于TN,FP很少。考虑一个具有 1000 TN 和 50 TP 的数据集。即使算法错误分类 50 FP,FPR 也只是 1 - 1000/(1000+50)。因此,假设灵敏度良好,ROC 下的面积会很高。
然而,现在考虑
PPV =
假设我们得到了每个正例都是正确的,但也有上面的 FP。在上面的例子中,我们有 PPV = 50/ (50+50) = 0.5!
因此,精确召回下的区域将非常低。所以从某种意义上说,PPV受FP绝对数量的影响。FPR 仅受 FP 数量相对于 TN 数量的影响。