我目前正在开展一个项目,该项目涉及使用不同的数据集作为预测器来预测样本外数据的结果。我使用 AUC(ROC 曲线下面积)来比较每组数据的性能。
我熟悉 AUC 和 ROC 背后的理论,但我想知道是否有评估 AUC 的精确标准,例如,如果 AUC 结果超过 0.75,它将被归类为'GOOD AUC'或低于 0.55 ,它将被归类为“不良 AUC”。
是否有这样的标准,或者AUC总是仅用于比较?
我目前正在开展一个项目,该项目涉及使用不同的数据集作为预测器来预测样本外数据的结果。我使用 AUC(ROC 曲线下面积)来比较每组数据的性能。
我熟悉 AUC 和 ROC 背后的理论,但我想知道是否有评估 AUC 的精确标准,例如,如果 AUC 结果超过 0.75,它将被归类为'GOOD AUC'或低于 0.55 ,它将被归类为“不良 AUC”。
是否有这样的标准,或者AUC总是仅用于比较?
从评论:
Calimo:如果你是一名交易员,并且在预测未来的金融交易时可以得到 0.501 的 AUC,那么你就是世界上最富有的人。如果您是一名 CPU 工程师,并且您的设计在判断某个位是 0 还是 1 时获得了 0.999 的 AUC,那么您就有了一块无用的硅片。
这是对安德烈的回答 (+1) 的补充。
在寻找关于 AUC-ROC 值的普遍接受的参考时,我遇到了 Hosmer 的“应用逻辑回归”。在章。5 “评估模型的拟合度”,强调“没有‘神奇’的数字,只有一般的指导方针”。其中,给出了以下值:
- ROC = 0.5 这表明没有歧视,(...)。
- 0.5 < ROC < 0.7 我们认为这种歧视很差,(...)。
- 0.7ROC < 0.8 我们认为这是可以接受的歧视。
- 0.8ROC < 0.9 我们认为这是极好的辨别力。
- 鹏0.9 我们认为这种明显的歧视。
这些值绝不是一成不变的,它们是在没有任何上下文的情况下给出的。正如《星际迷航》告诉我们的:“普遍法则是为走狗准备的,上下文是为国王准备的”,即(更严肃地说)我们需要了解我们正在做出特定决定以及我们的指标反映了什么。我的指导方针是:
不能说,因为这真的取决于任务和数据。对于一些简单的任务,AUC 可以是 90+,对于其他的 ~0.5-0.6。