如何解释 ROC 曲线?

机器算法验证 回归 物流 分类
2022-02-09 07:13:11

我将逻辑回归应用于我的 SAS 数据,这里是 ROC 曲线和分类表。

在此处输入图像描述

我对分类表中的数字感到满意,但不确定 roc 曲线及其下方的区域显示了什么。任何解释将不胜感激。

4个回答

当你进行逻辑回归时,你会得到两个编码为的类。现在,您计算给定一些解释变量的个人属于编码为的类的概率。如果您现在选择一个概率阈值,并将概率大于此阈值的所有个体分类为类,低于此阈值的个体分类为10110,在大多数情况下,您会犯一些错误,因为通常无法完美区分两组。对于这个阈值,您现在可以计算您的错误以及所谓的敏感性和特异性。如果您对许多阈值执行此操作,则可以通过绘制许多可能阈值的灵敏度与 1-Specificity 来构建 ROC 曲线。如果您想比较试图区分两个类别的不同方法,例如判别分析或概率模型,曲线下的区域就会发挥作用。您可以为所有这些模型构建 ROC 曲线,曲线下面积最大的模型可以被视为最佳模型。

如果您需要更深入地了解,还可以通过单击此处阅读有关 ROC 曲线的不同问题的答案。

AUC 基本上只是告诉您从 1 标记数据上的预测响应概率中随机抽取的频率将大于从 0 标记数据上的预测响应概率中随机抽取的频率。

逻辑回归模型是一种直接概率估计方法。分类在其使用中不应发挥作用。任何不基于评估个体受试者的效用(损失/成本函数)的分类都是不合适的,除非在非常特殊的紧急情况下。ROC 曲线在这里没有帮助;敏感性或特异性都不是,与整体分类准确度一样,它们都是不正确的准确度评分规则,由不适合最大似然估计的虚假模型优化。

请注意,您可以通过过度拟合数据来实现高预测歧视(高指数(ROC 区域))。您可能需要在的最不频繁类别中观察,其中是正在考虑的候选预测变量的数量,以便获得一个不会显着过度拟合的模型[即,一个可能适用于新数据的模型大约以及它在训练数据上的工作]。您需要至少 96 次观察来估计截距,以使预测风险的误差幅度和 0.95 置信度。c15pYp0.05

我不是这个博客的作者,我发现这个博客很有帮助: http: //fouryears.eu/2011/10/12/roc-area-under-the-curve-explained

将此解释应用于您的数据,平均正面示例中大约 10% 的负面示例得分高于它。