在二进制预测的情况下 考虑三个评分规则:
- 日志:
sum(log(ifelse(outcome, probability, 1-probability))) / n
- 布赖尔:
sum((outcome-probability)**2) / n
- 领域:
sum(ifelse(outcome, probability, 1-probability)/sqrt(probability**2+(1-probability)**2)) / n
他们背后的直觉是什么?我什么时候应该使用一个而不是另一个?我对低流行率(例如,0.1%)的情况特别感兴趣。
PS。这是为了评估我之前询问过的校准算法的结果。