评分规则是在给定事件的(分类)结果的情况下,评估代理对与分类事件相关的概率的猜测的方法。根据猜测和观察到的结果,评分规则给代理一个分数(一个实数)。评分规则应该分配分数,以便平均而言,得分最低的代理做出最准确的猜测。(关于评分规则是根据最小化还是最大化来构建的约定有所不同。这里我采取最小化的观点。)
评分规则的一个重要属性是它们是否是正确的评分规则;也就是说,当智能体猜测真实概率时,它们是否给出最低平均分数(或者,在主观贝叶斯框架中,当智能体使用自己的置信度作为它的猜测)。在二元事件的情况下,0 或 1 的平方误差(Brier 分数)是正确的评分规则,而绝对误差则不是。为什么?好吧,适当性的标准是基于均值的,而均值是最小化平方差之和但不必最小化绝对误差的集中趋势的度量。
这种思路表明,如果我们用其他一些统计函数(例如中位数)代替适当评分规则定义中的平均值,那么我们将获得类似的丰富的适当评分规则系列。想象一个代理想要最小化其中位数而不是平均分的情况并非不合理。实际上,似乎没有非平凡的中位数正确评分规则。再次考虑二元事件的情况,如果真实概率小于 1/2,则代理的中值分数将等于事件未发生时给予代理的任何分数,而不管事件的确切的概率。如果我们用几何平均数代替平均数,似乎就会发生类似的恶作剧。
那么,是否有一种感觉,为了使正确的评分规则理论按预期工作,统计泛函必须是均值?
我意识到这是一个模糊的问题,最好的答案可能是解释为什么这个问题没有真正意义,所以这里是我发现自己问这个问题的上下文,以帮助你解开我的困惑。我是一名决策心理学家,我经常发现自己想量化一个模型的性能(预测性能、交叉验证下或模型拟合事后),该模型会吐出人们会选择什么的概率二元决策场景。上述讨论表明我应该使用适当的评分规则。令人讨厌的是,正确的评分规则与概率不同。例如,我发现自己想要取均方误差的平方根,而不仅仅是查看均方误差(即平均 Brier 分数),但在一次试验的情况下,RMSE 相当于绝对误差,这是不正确的,所以我不认为不太准确的模型更好吗?显然,我不能仅仅将我评估评分规则的方法从一种基于均值的方法更改为一种基于中位数的方法。我是否必须简单地熟悉通常的适当评分规则之一的规模,或者使用 ROC 曲线下面积或 d' 之类的信号检测统计数据?
另一个复杂因素是,根据 Wagenmakers、Ratcliff、Gomez 和 Iverson (2004) 的说法,对于一项研究,我正在查看参数引导模型拟合,这意味着我正在查看分数的密度图而不是单个分数。然后更不清楚我是否应该关注适当性或一些类似的标准。
编辑:有关更多讨论,请参阅Reddit 上的此评论主题。
Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004)。使用参数引导程序评估模型模仿。数学心理学杂志,48,28-50。doi:10.1016/j.jmp.2003.11.004