正确的评分规则是由“真实”模型最大化的规则,它不允许“对冲”或博弈系统(故意报告不同的结果作为模型的真实信念以提高分数)。Brier 分数是适当的,准确性(正确分类的比例)是不适当的并且经常不鼓励。有时我看到 AUC 被称为半正确的评分规则,这使得它不会完全伪装为准确性,但不如正确的规则敏感(例如这里https://stats.stackexchange.com/a/90705/53084)。
半正确评分规则是什么意思?它是在某处定义的吗?
正确的评分规则是由“真实”模型最大化的规则,它不允许“对冲”或博弈系统(故意报告不同的结果作为模型的真实信念以提高分数)。Brier 分数是适当的,准确性(正确分类的比例)是不适当的并且经常不鼓励。有时我看到 AUC 被称为半正确的评分规则,这使得它不会完全伪装为准确性,但不如正确的规则敏感(例如这里https://stats.stackexchange.com/a/90705/53084)。
半正确评分规则是什么意思?它是在某处定义的吗?
让我们从一个例子开始。假设 Alice 是一名田径教练,他想挑选一名运动员代表球队参加即将到来的体育赛事,即 200 米短跑。她自然想选择跑得最快的人。
虽然有些琐碎,但上面的示例显示了使用评分规则会发生什么。Alice 正在预测预期的冲刺时间。在分类的背景下,我们预测概率以最小化概率分类器的误差。
正如我们所见,半正确的评分规则并不完美,但也不是彻底的灾难性。实际上,它在预测期间非常有用!Cagdas Ozgenc在这里有一个很好的例子,使用不正确/半正确的规则比严格正确的规则更可取。一般来说,术语 半正确评分规则并不常见。它与可能仍然有用的不当规则相关联(例如概率分类中的 AUC-ROC 或 MAE)。
最后,注意一些重要的事情。由于短跑与强壮的腿有关,因此正确的概率分类与准确性有关。一个好的短跑运动员不太可能有弱腿,同样,一个好的分类器不太可能有不好的准确度。然而,将准确率等同于良好的分类器性能就像将腿部力量等同于良好的短跑性能。并非完全没有根据,但很可能导致荒谬的结果。