AUC 是半正确的评分规则是什么意思?

机器算法验证 分类 参考 测量误差 计分规则
2022-02-01 16:56:50

正确的评分规则是由“真实”模型最大化的规则,它不允许“对冲”或博弈系统(故意报告不同的结果作为模型的真实信念以提高分数)。Brier 分数是适当的,准确性(正确分类的比例)是不适当的并且经常不鼓励。有时我看到 AUC 被称为半正确的评分规则,这使得它不会完全伪装为准确性,但不如正确的规则敏感(例如这里https://stats.stackexchange.com/a/90705/53084)。

半正确评分规则是什么意思?它是在某处定义的吗?

1个回答

让我们从一个例子开始。假设 Alice 是一名田径教练,他想挑选一名运动员代表球队参加即将到来的体育赛事,即 200 米短跑。她自然想选择跑得最快的人。

  • 严格正确的计分规则提名 200 米距离内跑得最快的球队。在这种情况下,这正是爱丽丝教练想要的最大化。预期表现最快的运动员会被选中——这是一个公平的歧视性测试。
  • 正确的计分规则是选择能够以最快速度跑 200 米但时间四舍五入到最接近半秒的运动员。最好的运动员以及可能的其他一些运动员也将能够通过此测试。所有以这种方式被选中的运动员都非常有竞争力,但显然这不是一个完美的速度歧视测试。
  • 正确的计分规则是选择能够在比赛时间阈值(例如 22 秒)以下跑 200 米的运动员。和以前一样,最好的运动员以及其他一些运动员也将能够通过此测试。同样,所有以这种方式被选中的运动员可能都非常有竞争力,但显然这不仅不是一个完美的歧视性测试,而且它也可能变得非常糟糕(如果我们选择一个过于宽松或过于严格的时间)。请注意,这并不是完全错误的。
  • 一个不恰当的计分规则是选择腿最强壮的运动员,例如谁可以蹲得最重。当然,任何优秀的短跑运动员都可能有非常强壮的腿,但这项测试意味着举重队的一些人会在这里表现出色。显然,举重运动员参加 200 米比赛将是灾难性的!

虽然有些琐碎,但上面的示例显示了使用评分规则会发生什么。Alice 正在预测预期的冲刺时间。在分类的背景下,我们预测概率以最小化概率分类器的误差。

  • 严格正确的评分规则如 Brier 评分,保证只有在我们尽可能接近真实概率时才能获得最佳评分。
  • 正确的评分规则,如连续排名概率分数 (CRPS),并不能保证只有预测最接近真实概率的分类器才能获得最佳分数。其他候选分类器可能会获得与最佳分类器匹配的 CRPS 分数。
  • 正确的评分规则,如 AUC-ROC,不仅不能保证预测最接近真实概率的分类器会获得最佳性能,而且还(可能)可以改进通过将预测概率远离其真实值来计算 AUC-ROC 的值。然而,在某些条件下(例如,在 AUC-ROC 的情况下,类分布是先验已知的)这样的规则可以近似于一个适当的评分规则。Byrne (2016) “关于使用经验 AUC 评估概率预测的说明”提出了一些关于 AUC-ROC 的有趣观点。
  • 不正确的评分规则,如准确度,与我们最初的任务(即预测尽可能接近真实概率的概率)几乎没有联系。

正如我们所见,半正确的评分规则并不完美,但也不是彻底的灾难性。实际上,它在预测期间非常有用!Cagdas Ozgenc在这里有一个很好的例子,使用不正确/半正确的规则比严格正确的规则更可取。一般来说,术语 半正确评分规则并不常见。它与可能仍然有用的不当规则相关联(例如概率分类中的 AUC-ROC 或 MAE)。

最后,注意一些重要的事情。由于短跑与强壮的腿有关,因此正确的概率分类与准确性有关。一个好的短跑运动员不太可能有弱腿,同样,一个好的分类器不太可能有不好的准确度。然而,将准确率等同于良好的分类器性能就像将腿部力量等同于良好的短跑性能。并非完全没有根据,但很可能导致荒谬的结果。