这是在我的 ML 课程中被问到的。我回答是,但无法准确解释原因。“更好”是指几何解释是否提供了比数字分数更多的信息。
roc auc graph 是否优于 roc auc score?如果是,为什么?
数据挖掘
奥克
鹏
2022-02-27 13:41:40
3个回答
是的,该图表包含 AUC 数字本身没有的信息。
比较具有非常接近 AUC 数的 2 个以上模型时,这是最有趣的。该图可以告诉您,一个模型有利于召回,而另一个模型有利于精确度。或者,如果线条基本上在另一个之上,它会告诉您两个模型在所有阈值上都具有相同的性能。
该图还可以帮助您选择阈值。因此,如果精度更重要,您对线刚开始离开左侧的阈值感兴趣。如果精度更重要,您对它刚刚开始离开顶部的点感兴趣。
翻转它,查看图表需要人类专家。AUC 数字可让您在眨眼之间比较数千个模型,并保持客观。
从评论中添加的“更好”,我可以解释为几何表示与数字表示中是否存在不同的信息。忽略 ROC 是否真的是用于解决问题的正确指标。此信息可能与问题无关。
数字 AUROC 不能深入了解 ROC 曲线是否交叉。如果曲线交叉,则需要在敏感性和特异性之间进行权衡。选择更高的 AUROC 并不能让您知道您已做出权衡决定。这篇文章很好地解释了它并有一张图片。
这提出了一个问题,即许多候选模型具有相似的 ROC 曲线,并且基于 AUROC 或 ROC 选择模型可能不够区分。
这些是我从你的问题中解释的:
这是我的答案: ROC-AUC 分数基本上是 AUC(ROC 曲线下的面积)。.
如果您需要更多说明:
ROC:将告诉分类模型在给定阈值变化的情况下预测的好坏。
AUC:将告诉您聚合如何跨越所有阈值。如果所有预测都错误,AUC 将为 0,如果所有预测都正确,则 AUC 将为 1。AUC 的性质:
- AUC 将告诉您预测的排名情况,而不是其绝对值,与规模无关。
- 无论分类阈值(阈值不变)如何,它都会告诉您预测的质量。
使用 AUC 比较两个分类模型(例如,如果逻辑回归的 AUC = 0.8 且随机森林的 AUC=0.9,则选择随机森林)。
AUC 有其限制:
- 尺度不变并不总是可取的。特别是当我们想要校准我们的输出时。
- 当我们想要优先考虑最小化任何速率时(例如,在垃圾邮件过滤器模型中优先考虑最小化误报),阈值不变是不可取的
其它你可能感兴趣的问题