ROC曲线缺点

机器算法验证 物流
2022-03-16 01:27:07

在昨天的课上,我们学习了逻辑,随后又学习了 ROC 曲线以及如何使用它。

我的问题是:

  1. 这是识别逻辑模型是否最好的最常用方法吗?如果不是,还有哪些常用的方法?

  2. 使用 ROC 曲线判断是否使用模型可能存在哪些弊端?

1个回答

ROC AUC 具有与统计量一致的性质。统计量衡量正例排名高于负例的概率从这个意义上说,ROC AUC 回答了模型如何区分这两个类别的问题。cc

具有高辨别力的模型不一定经过良好校准。假设逻辑回归模型预测阳性概率为 0.52,阴性概率为 0.51。该模型的 AUC 为 1,但概率在识别哪些声称的阳性是最高风险的意义上没有帮助。因为所有的正面都被分配了相同的后验概率,所以它们不能被区分。

此外,经过良好校准的模型的最大 ROC AUC 将由数据中正负的比率固定。这意味着具有一些非常理想的概率(即其后验概率与真实概率匹配)的模型对其性能有一个上限,因此未校准的模型可能在 ROC AUC 方面“占主导地位”。

ROC AUC 不会告诉您任何有关不同类型错误的成本。例如,如果您试图检测欺诈行为,则购买 10,000 美元的不确定来源比购买 10 美元的潜在损失更大。但是 ROC AUC 会将这两个事件视为具有相同的权重——显然任何合理的模型都应该能够区分这两种类型的错误。

ROC AUC 也倾向于以“高 FPR”点为主。根据应用程序,这些点可能是最不相关的。考虑使用该模型将高风险交易提交给将进行进一步审查的专家的情况。每单位时间可能只有足够的人来评估 50 笔交易;由于根据定义,排名最高的交易发生在 ROC 曲线的“左手”大小上,这也是面积最低的区域。因此,通过查看整个 AUC,您可以乐观地将结果向上倾斜,即 ROC AUC 受到人类将审查的实际观察结果“右侧”的观察结果的推动。(说明很简单。在任何 ROC 曲线上在 FPR<0.5 处绘制一条垂直线。所有这些垂直线的左侧区域都较高。)为了避免这种情况,有些人使用部分 ROC AUC,这有其自身的一系列问题,其中最主要的是软件实现倾向于假设您'在 FPR 的某个值。但是如果你关心前事务,这种方法显然是错误的,因为前事务将发生在不同分类器的不同 FPR 值上。部分 AUC 的标准化(保留 AUC < 0.5 比随机差的特性,1 是完美的,0 是毫无价值的)会带来更多的困难。nn

ROC 曲线本身没什么意义。“主导”分类器可以通过 AUC 评估。随机等价性可以通过等级等价性检验来评估。Harrell 教授的评论推动了他工作的一个一致主题,即诊断应该回答的真正问题是风险评估和效用优化之一。检查 ROC AUC 倾向于鼓励选择截断点,应该避免这种情况,因为它只向决策者提供部分信息。

性能的替代度量(例如对数似然)表征模型的校准,并且适当的评分规则通常具有鼓励诚实预测的质量。