维基百科说 ROC 曲线下面积的解释是:“曲线下面积等于分类器将随机选择的正实例排名高于随机选择的负实例的概率”。
但对 PR 曲线下面积的解释是否相同?如果没有,你能像上面那样给我一个直观的解释吗?
编辑:PR == 精确召回
维基百科说 ROC 曲线下面积的解释是:“曲线下面积等于分类器将随机选择的正实例排名高于随机选择的负实例的概率”。
但对 PR 曲线下面积的解释是否相同?如果没有,你能像上面那样给我一个直观的解释吗?
编辑:PR == 精确召回
PR 曲线下的区域不明确。因为在召回 0 处没有明确定义的精度:您在那里得到除以零。
你也不能轻易地缩小这个差距——它可能是从 0 到 1 的任何值,这取决于你的检索效果如何。
有一个常见的近似值 - AveP,平均精度。
好吧,我会尽量给出一些接近维基百科的直觉,如你所愿。PR-AUC 可以被认为是分类器将随机选择的“正”实例(来自检索到的预测)排名高于随机选择的“正”实例(来自原始正类)的概率。需要注意的是,这是基于我自己的解释,可能会出现错误。
在另一个维基百科页面中,以下文本是相关的“精度(也称为阳性预测值)是检索到的相关实例的分数,而召回率(也称为灵敏度)是检索到的相关实例的分数”。
PR-Curve 是一个非常重要的指标,尤其是在处理不平衡数据集时。我建议查看这项研究以获取更多详细信息。
从另一个角度来看,我想说,当敏感性和精确度对实验者都很重要时,我们可以将它们分别视为探索和开发术语。基本上,您可以严格限制正类预测的阈值,允许非常高的精度,但代价是更少的探索(即较低的灵敏度)(或关于正类的新见解)。放宽这个约束,可以允许探索那些我们预测为积极但从未想过的情况。
人们希望始终最大化两者,但在某些情况下,这可能非常困难,并且在某些应用程序中,为了增强另一个而牺牲一个是可取的。