不同评分规则背后的直觉

机器算法验证 物流 直觉 罕见事件 计分规则
2022-03-11 06:25:15

在二进制预测的情况下 考虑三个评分规则:

  1. 日志:sum(log(ifelse(outcome, probability, 1-probability))) / n
  2. 布赖尔:sum((outcome-probability)**2) / n
  3. 领域:sum(ifelse(outcome, probability, 1-probability)/sqrt(probability**2+(1-probability)**2)) / n

他们背后直觉是什么?我什么时候应该使用一个而不是另一个?我对低流行率(例如,0.1%)的情况特别感兴趣。

PS。这是为了评估我之前询问过的校准算法的结果。

2个回答

日志评分可能不合适的一个地方:人类预测者的比较(他们可能倾向于夸大他们的信心)。

日志评分强烈惩罚非常过度自信的错误预测。以 100% 的置信度做出的错误预测会受到无限惩罚。For example, suppose a commentator says "I am 100% sure that Smith will win the election," and then Smith loses the election. 在日志评分下,所有评论员预测的平均分数现在永久停留在,最坏的可能。应该可以区分出一个错误的 100% 置信度预测的人比那些一直做出错误预测的人是一个更好的预测者。

日志

当我们发现实际值时预测的预期惊喜

布赖尔

L2RMSE,OLS。

然而,事实是p=2唯一的值Lp规范到正确的评分规则有损于这种直觉。

领域

预测向量之间夹角的余弦(p,1p)和结果向量 (0,1) 或 (1,0)。

请注意,角度本身并不是正确的评分规则,这也有损于直觉。