机器算法验证 - ROC曲线的模式和AUC的选择 - 吾爱随笔录

机器算法验证鹏奥克

2022-03-18 08:42:06

我正在使用 ROC 曲线和完整的 AUC 值来比较不同的模型，使用模拟数据。现在我想我对 ROC 曲线和 AUC 值的解释感到困惑。请看下图（对不起，它是屏幕截图的一部分......）

比较了三种模型，我知道绿色显示的模型应该是最好的。但是，如您所见，在FPR 达到 0.2 左右之前，绿色曲线优于其他两条曲线。这个 0.2 的截止值非常有趣：它是我在模拟中指定的差异表达基因的百分比（即 20% 的观察结果被模拟为阳性）。

我担心的是：

鉴于现实中人们很少会选择 0.5 或更高的 FPR 截止值，为什么人们更喜欢 FPR 范围为 0 到 1 的 ROC 曲线并使用完整的 AUC 值（即计算 ROC 曲线下的整个面积）来代替只是报告从 0 到 0.25 或 0.5 的面积？这就是所谓的“部分AUC”吗？
在下图中，我们可以说三款车型的表现如何？AUC 值为：绿色 (0.805)、红色 (0.815)、蓝色 (0.768)。红色曲线证明是优越的，但正如你所见，优越性仅在 FPR > 0.2 后才体现出来。谢谢：）

在此处输入图像描述

3个回答

我同意你的担忧。

鉴于现实中人们很少会选择 0.5 或更高的 FPR 截止值，为什么人们更喜欢 FPR 范围为 0 到 1 的 ROC 曲线并使用完整的 AUC 值（即计算 ROC 曲线下的整个面积）来代替只是报告从 0 到 0.25 或 0.5 的面积？这就是所谓的“部分AUC”吗？

在下图中，我们可以说三款车型的表现如何？AUC 值为：绿色 (0.805)、红色 (0.815)、蓝色 (0.768)。红色曲线证明是优越的，但正如你所见，优越性仅在 FPR > 0.2 后才体现出来。谢谢：）

至于分类器的比较：这里有很多问题和答案都在讨论这个问题。概括：

通常，您的应用程序将决定您的重点是精度还是召回率。

@2 这些在医学领域会有很大的不同，在预防方面，您通常会为了很好的召回而容忍精度差，也就是说，您更喜欢将很多健康的人标记为生病并让额外的测试，而不是让某人死去（这里疾病被认为是“相关的”，并被标记为生病的“恢复”）。

另一方面，在生产中，您可以容忍一定数量的坏苹果，并且您可能更喜欢这样的测试，它不会发现所有有缺陷的产品，但在识别坏苹果方面要精确得多——通常是与检查物品相关的成本不能忽视。这对应于高精度和低召回率的场景。

对于您的模型，您要么知道自己需要什么并为此目的选择更好的模型，要么选择具有更好 AUC 的模型。当然，您还可以考虑其他一些事情，例如，哪个模型更简洁（解释变量更少），哪些假设更好地满足，等等。

@1 我看不到在情节中放置较少信息的好处，尤其是如果它可能具有误导性。（除非你从事营销工作）

你没有说明练习的最终目标，因此 ROC 曲线的选择没有很好的动机。许多有用的事情可以通过对数似然和 Brier 分数以及预测风险的分布（忽略）来完成。截断的使用是有问题的。 $Y$

其它你可能感兴趣的问题