因为我有一个非常不平衡的数据集(9% 的阳性结果),我认为精确召回曲线比 ROC 曲线更合适。我获得了 PR 曲线下面积的类似汇总测量值(如果您有兴趣,我得到了 0.49),但不确定如何解释它。我听说 ROC 的良好 AUC 是 0.8 或更高,但是对于精确召回曲线的 AUC,一般截止值是否相同?
精确召回曲线的良好 AUC 是多少?
AUC-ROC 或 AUC-PR没有神奇的截止值。更高显然更好,但它完全取决于应用程序。
例如,如果你能成功地识别出 AUC 为 0.8 的有利可图的投资,或者,就此而言,任何与机会有区别的东西,我都会印象深刻,你会非常富有。另一方面,以 0.95 的 AUC 对手写数字进行分类仍远低于当前的技术水平。
此外,虽然最好的 AUC-ROC 保证在 [0,1] 内,但对于精确召回曲线来说并非如此,因为 PR 空间可能存在“无法到达”的区域,具体取决于类分布的倾斜程度。(有关详细信息,请参见Boyd 等人 (2012)的这篇论文)。
在您的情况下,随机估计器的 PR-AUC 为 0.09(9% 的阳性结果),因此您的 0.49 绝对是一个大幅增加。
如果这是一个好的结果,只能与其他算法进行比较来评估,但您没有详细说明您使用的方法/数据。
此外,您可能想要评估 PR 曲线的形状。理想的 PR 曲线从左上角水平到右上角,然后直下到右下角,导致 PR-AUC 为 1。再次靠近“随机估计线”(在您的情况下为 0.09 精度的水平线)。这表明可以很好地检测到“强”的积极结果,但在不太明确的候选者上表现不佳。
如果您想为算法的截止参数找到一个好的阈值,您可以考虑 PR 曲线上最靠近右上角的点。或者更好的是,如果可能的话,考虑交叉验证。您可能会获得比 PR-AUC 的值更适合您的应用程序的特定截止参数的精度和召回值。在比较不同的算法时,AUC 是最有趣的。
.49 不是很好,但它的解释与 ROC AUC 不同。对于 ROC AUC,如果您使用逻辑回归模型获得 0.49,我会说您的表现并不比随机好。但是对于 .49 PR AUC,它可能还没有那么糟糕。我会考虑查看个人精度和召回率,也许其中一个或另一个是导致您的 PR AUC 下降的原因。Recall 会告诉你 9% 的肯定类中有多少你实际上猜对了。精确度会告诉你有多少你猜对了但不是。(误报)。50% 的召回率是不好的,这意味着你不会猜到很多不平衡的类,但也许 50% 的准确率也不错。取决于你的情况。