确定 AUC 有多好(ROC 曲线下面积)

机器算法验证 机器学习 奥克
2022-03-19 05:30:55

我目前正在开展一个项目,该项目涉及使用不同的数据集作为预测器来预测样本外数据的结果。我使用 AUC(ROC 曲线下面积)来比较每组数据的性能。

我熟悉 AUC 和 ROC 背后的理论,但我想知道是否有评估 AUC 的精确标准,例如,如果 AUC 结果超过 0.75,它将被归类为'GOOD AUC'或低于 0.55 ,它将被归类为“不良 AUC”

是否有这样的标准,或者AUC总是仅用于比较?

4个回答

从评论:

Calimo:如果你是一名交易员,并且在预测未来的金融交易时可以得到 0.501 的 AUC,那么你就是世界上最富有的人。如果您是一名 CPU 工程师,并且您的设计在判断某个位是 0 还是 1 时获得了 0.999 的 AUC,那么您就有了一块无用的硅片。

这是对安德烈的回答 (+1) 的补充。

在寻找关于 AUC-ROC 值的普遍接受的参考时,我遇到了 Hosmer 的“应用逻辑回归”。在章。5 “评估模型的拟合度”,强调“没有‘神奇’的数字,只有一般的指导方针”。其中,给出了以下值:

  • ROC = 0.5 这表明没有歧视,(...)。
  • 0.5 < ROC < 0.7 我们认为这种歧视很差,(...)。
  • 0.7ROC < 0.8 我们认为这是可以接受的歧视。
  • 0.8ROC < 0.9 我们认为这是极好的辨别力。
  • 0.9 我们认为这种明显的歧视。

这些值绝不是一成不变的,它们是在没有任何上下文的情况下给出的。正如《星际迷航》告诉我们的:普遍法则是为走狗准备的,上下文是为国王准备的,即(更严肃地说)我们需要了解我们正在做出特定决定以及我们的指标反映了什么。我的指导方针是:

  1. 对于任何新任务,我们都应该积极地查看现有文献,看看什么是竞争表现。(例如从 X 射线图像中检测肺癌) 这实际上是一篇文献综述。
  2. 如果我们的任务没有出现在文献中,我们应该致力于提供对合理基线模型的改进。该基线模型可能是一些简单的经验法则、其他现有解决方案和/或人工评估者提供的预测。
  3. 如果我们的任务没有现有文献并且没有可用的简单基线模型,我们应该停止尝试进行“更好/更差”的模型性能比较。此时,说“ AUC-R0C 0.75 不好”还是“ AUC-ROC 0.75 好”是见仁见智的问题。

不能说,因为这真的取决于任务和数据。对于一些简单的任务,AUC 可以是 90+,对于其他的 ~0.5-0.6。

一般来说,我不会这么说。这完全取决于任务、您的数据集和目标。没有经验法则将 xx 的 AUC 值定义为良好的预测模型。

话虽如此,您希望获得尽可能高的 AUC 值。在 AUC 为 1 的情况下,您的模型本质上是您结果的完美预测器。在 0.5 的情况下,您的模型并不真正有价值。AUC 为 0.5 仅意味着模型只是随机预测结果,并不比猴子做得更好(理论上)。如果您还没有,我只能建议您阅读更多有关它的信息。真的很简单。而且,在这里