我刚读完这个讨论。他们认为 PR AUC 在不平衡数据集上优于 ROC AUC。
例如,我们在测试数据集中有 10 个样本。9 个样本为阳性,1 个为阴性。我们有一个糟糕的模型,它可以预测一切都是积极的。因此,我们将有一个 TP = 9,FP = 1,TN = 0,FN = 0 的度量。
然后,精度 = 0.9,召回率 = 1.0。准确率和召回率都非常高,但是我们的分类器很差。
另一方面,TPR = TP/(TP+FN) = 1.0,FPR = FP/(FP+TN) = 1.0。因为 FPR 非常高,我们可以确定这不是一个好的分类器。
显然,ROC 在不平衡数据集上优于 PR。有人可以解释为什么 PR 更好吗?