机器算法验证 - AUPRC 与 AUC-ROC？ - 吾爱随笔录

机器算法验证分类鹏奥克

2022-03-16 14:22:02

关于曲线下面积（AUC），我遇到了两个不同的术语：

他们在谈论同样的事情吗？

1个回答

ROC AUC 是曲线下的面积，其中 x 是假阳性率 (FPR)，y 是真阳性率 (TPR)。

PR AUC 是曲线下的面积，其中 x 是召回率，y 是精度。

召回 = TPR = 灵敏度。然而精度=PPV FPR。 $\neq$

所以这些是非常不同的曲线。

他们在谈论同样的事情吗？

并不真地。两者都在技术上评估“歧视”而不是“校准”。

如果不是，它们是否对所有可能的数据集共享相似的值？

不

如果仍然没有，ROC AUC 和 AUPRC 强烈反对的数据集示例将会很棒。

一个例子是最不平衡的数据集。PPV 取决于流行率，因此在流行率较低的情况下，它会与 ROC 曲线的 TPR/FPR 不一致。

这可能会有所帮助（我认为数字加起来，但不确定，但它应该显示 PPV 和 FPR 之间的区别）：

考虑 FPR = 1-特异性 = $1 - \dfrac{TN}{TN+FP}$

误报率可能很低。换句话说，相对于TN，FP很少。考虑一个具有 1000 TN 和 50 TP 的数据集。即使算法错误分类 50 FP，FPR 也只是 1 - 1000/(1000+50)。因此，假设灵敏度良好，ROC 下的面积会很高。

然而，现在考虑

PPV = $\dfrac{TP}{TP+FP}$

假设我们得到了每个正例都是正确的，但也有上面的 FP。在上面的例子中，我们有 PPV = 50/ (50+50) = 0.5！

因此，精确召回下的区域将非常低。所以从某种意义上说，PPV受FP绝对数量的影响。FPR 仅受 FP 数量相对于 TN 数量的影响。

其它你可能感兴趣的问题