PR曲线的AUC是多少?

机器算法验证 机器学习 精确召回 奥克
2022-03-13 13:05:02

我知道ROC曲线下的AUC是分类器的经典评估度量(基本上是准确性)。但是,当数据不平衡时,PR 将是替代方案。那么,PR曲线下的AUC是什么意思呢?

另外,例如,如果我在 ROC 曲线中获得分类器的最佳阈值(例如最小化错误的阈值),我可以使用该最佳阈值并计算 PR 曲线中的精度和召回率吗?

1个回答

ROC 曲线下的面积相当于一致性(又名统计量)c不是准确度!)。这可以解释为随机正数被分配比随机负数更高的分数的概率。不幸的是,PR 曲线下的面积没有这样的解释(我知道)。

ROC 和 PR 曲线之间的关系源于两者都基于相同来源的事实:每个可能的决策值阈值的列联表。每个阈值导致一个列联表(例如)。TTP(T)FP(T)TN(T)FN(T)

ROC 空间中的每个点都基于某个决策阈值,因此与 PR 空间中的一个点重合。如果给定模型的 ROC/PR 曲线占主导地位,则该模型的 PR/ROC 曲线也将占主导地位(参见 Davis & Goadrich)。T

另外,例如,如果我在 ROC 曲线中获得分类器的最佳阈值(例如最小化错误的阈值),我可以使用该最佳阈值并计算 PR 曲线中的精度和召回率吗?

两点说明:如果您想选择最小化误差(最大化准确性)的阈值,则不需要 ROC 曲线(实际上它们甚至没有显示)。其次,如果您决定了一个阈值,您可以使用相应的列联表来直接获得您想要的任何其他措施。不要费心计算完整的 PR 曲线然后选择其中的 1 个点。

请记住, ROC 或 PR 曲线都不会显示哪个阈值会在给定空间中产生某个点。它们只是向您展示了模型能够进行的可能的权衡。也就是说,如果您保留它们对应的阈值的记录,您显然可以将 ROC/PR 空间中的一个点映射到一个阈值(无论如何大多数软件包都会这样做)。