ROC曲线的模式和AUC的选择

机器算法验证 奥克
2022-03-18 08:42:06

我正在使用 ROC 曲线和完整的 AUC 值来比较不同的模型,使用模拟数据。现在我想我对 ROC 曲线和 AUC 值的解释感到困惑。请看下图(对不起,它是屏幕截图的一部分......)

比较了三种模型,我知道绿色显示的模型应该是最好的。但是,如您所见,在FPR 达到 0.2 左右之前,绿色曲线优于其他两条曲线。这个 0.2 的截止值非常有趣:它是我在模拟中指定的差异表达基因的百分比(即 20% 的观察结果被模拟为阳性)。

我担心的是:

  1. 鉴于现实中人们很少会选择 0.5 或更高的 FPR 截止值,为什么人们更喜欢 FPR 范围为 0 到 1 的 ROC 曲线并使用完整的 AUC 值(即计算 ROC 曲线下的整个面积)来代替只是报告从 0 到 0.25 或 0.5 的面积?这就是所谓的“部分AUC”吗?

  2. 在下图中,我们可以说三款车型的表现如何?AUC 值为:绿色 (0.805)、红色 (0.815)、蓝色 (0.768)。红色曲线证明是优越的,但正如你所见,优越性仅在 FPR > 0.2 后才体现出来。谢谢 :)

在此处输入图像描述

3个回答

我同意你的担忧。

鉴于现实中人们很少会选择 0.5 或更高的 FPR 截止值,为什么人们更喜欢 FPR 范围为 0 到 1 的 ROC 曲线并使用完整的 AUC 值(即计算 ROC 曲线下的整个面积)来代替只是报告从 0 到 0.25 或 0.5 的面积?这就是所谓的“部分AUC”吗?

  • 我非常喜欢拥有完整的 ROC,因为它提供的信息比分类器的一个工作点的敏感性/特异性对要多得多。
  • 出于同样的原因,我不喜欢将所有这些信息进一步总结为一个数字。但如果你必须这样做,我同意最好将计算限制在与应用程序相关的 ROC 部分。

在下图中,我们可以说三款车型的表现如何?AUC 值为:绿色 (0.805)、红色 (0.815)、蓝色 (0.768)。红色曲线证明是优越的,但正如你所见,优越性仅在 FPR > 0.2 后才体现出来。谢谢 :)

  • 这完全取决于您的应用程序。在您的示例中,如果需要高特异性,那么绿色分类器将是最好的。如果需要高灵敏度,请选择红色的。

至于分类器的比较:这里有很多问题和答案都在讨论这个问题。概括:

  • 分类器比较远比人们最初预期的要困难得多
  • 并非所有分类器性能测量都适合这项任务。阅读@FrankHarrells 的答案,并采用所谓的正确评分规则(例如 Brier 的分数/均方误差)。

通常,您的应用程序将决定您的重点是精度还是召回率。

@2 这些在医学领域会有很大的不同,在预防方面,您通常会为了很好的召回而容忍精度差,也就是说,您更喜欢将很多健康的人标记为生病并让额外的测试,而不是让某人死去(这里疾病被认为是“相关的”,并被标记为生病的“恢复”)。

另一方面,在生产中,您可以容忍一定数量的坏苹果,并且您可能更喜欢这样的测试,它不会发现所有有缺陷的产品,但在识别坏苹果方面要精确得多——通常是与检查物品相关的成本不能忽视。这对应于高精度和低召回率的场景。

对于您的模型,您要么知道自己需要什么并为此目的选择更好的模型,要么选择具有更好 AUC 的模型。当然,您还可以考虑其他一些事情,例如,哪个模型更简洁(解释变量更少),哪些假设更好地满足,等等。

@1 我看不到在情节中放置较少信息的好处,尤其是如果它可能具有误导性。(除非你从事营销工作)

你没有说明练习的最终目标,因此 ROC 曲线的选择没有很好的动机。许多有用的事情可以通过对数似然和 Brier 分数以及预测风险的分布(忽略)来完成。截断的使用是有问题的。Y