正确评分规则的替代概念,以及使用评分规则评估模型

机器算法验证 计分规则
2022-03-18 12:07:17

评分规则是在给定事件的(分类)结果的情况下,评估代理对与分类事件相关的概率的猜测的方法。根据猜测和观察到的结果,评分规则给代理一个分数(一个实数)。评分规则应该分配分数,以便平均而言,得分最低的代理做出最准确的猜测。(关于评分规则是根据最小化还是最大化来构建的约定有所不同。这里我采取最小化的观点。)

评分规则的一个重要属性是它们是否是正确的评分规则;也就是说,当智能体猜测真实概率时,它们是否给出最低平均分数(或者,在主观贝叶斯框架中,当智能体使用自己的置信度作为它的猜测)。在二元事件的情况下,0 或 1 的平方误差(Brier 分数)是正确的评分规则,而绝对误差则不是。为什么?好吧,适当性的标准是基于均值的,而均值是最小化平方差之和但不必最小化绝对误差的集中趋势的度量。

这种思路表明,如果我们用其他一些统计函数(例如中位数)代替适当评分规则定义中的平均值,那么我们将获得类似的丰富的适当评分规则系列。想象一个代理想要最小化其中位数而不是平均分的情况并非不合理。实际上,似乎没有非平凡的中位数正确评分规则。再次考虑二元事件的情况,如果真实概率小于 1/2,则代理的中值分数将等于事件未发生时给予代理的任何分数,而不管事件的确切的概率。如果我们用几何平均数代替平均数,似乎就会发生类似的恶作剧。

那么,是否有一种感觉,为了使正确的评分规则理论按预期工作,统计泛函必须是均值?

我意识到这是一个模糊的问题,最好的答案可能是解释为什么这个问题没有真正意义,所以这里是我发现自己问这个问题的上下文,以帮助你解开我的困惑。我是一名决策心理学家,我经常发现自己想量化一个模型的性能(预测性能、交叉验证下或模型拟合事后),该模型会吐出人们会选择什么的概率二元决策场景。上述讨论表明我应该使用适当的评分规则。令人讨厌的是,正确的评分规则与概率不同。例如,我发现自己想要取均方误差的平方根,而不仅仅是查看均方误差(即平均 Brier 分数),但在一次试验的情况下,RMSE 相当于绝对误差,这是不正确的,所以我不认为不太准确的模型更好吗?显然,我不能仅仅将我评估评分规则的方法从一种基于均值的方法更改为一种基于中位数的方法。我是否必须简单地熟悉通常的适当评分规则之一的规模,或者使用 ROC 曲线下面积或 d' 之类的信号检测统计数据?

另一个复杂因素是,根据 Wagenmakers、Ratcliff、Gomez 和 Iverson (2004) 的说法,对于一项研究,我正在查看参数引导模型拟合,这意味着我正在查看分数的密度图而不是单个分数。然后更不清楚我是否应该关注适当性或一些类似的标准。

编辑:有关更多讨论,请参阅Reddit 上的此评论主题。

Wagenmakers, E.-J., Ratcliff, R., Gomez, P., & Iverson, GJ (2004)。使用参数引导程序评估模型模仿。数学心理学杂志,48,28-50。doi:10.1016/j.jmp.2003.11.004

2个回答

与你所说的几何平均恶作剧相反,几何平均实际上有适当的评分规则。

的几何平均值等于的几何平均值对应于最小化随机分数的算术平均值。因此,如果是标准的正确评分规则(其中是您预测概率并且事件发生时得到的分数),那么是几何平均值的正确评分规则。XeE(logX)SlogSf(p^)f(p^)p^g(p^)=logf(p^)

的调和平均值,所以是一个调和适当的评分规则. (负号在那里,所以坐标变换是单调递增的。)XE(X1)1g(p^)=f(p^)1

这适用于任何集中趋势,即单调变换空间中的算术平均值。问题是中位数不是这样工作的。更一般地,任何具有非零崩溃点的集中趋势都将不起作用,因为当较小时,它对概率的变化不敏感。例如,四分位距不起作用,因为如果,那么分数的四分位范围不依赖于(因此相同的值小于的 IQR ,这不好)。pp<0.25pp^p0.25

在我的脑海中,我想不出任何具有 0 分解点的中心趋势,不能被重写为算术平均值的单调变换,但这可能是因为我不知道足够的变分微积分(当然还不够来证明我是对的)。但是,如果我是正确的,那么“基本上”是正确的

为了使正确评分规则的理论按预期工作,统计泛函必须是平均值。


另一句话:您建议使用 RMSE 作为评分规则,但您不应该这样做,因为它与有一个数据点时的绝对误差一致。这似乎反映了一些混乱。您总是对每个单独的预测评估评分规则。然后如果你想总结分数,你可以在之后取分数的集中趋势。因此,预测优化 RMSE始终与优化绝对误差相同。

另一方面,如果你想要一个以“概率单位”为单位的分数总结,你可以做一些事情,比如取平均 Brier 分数的平方根作为总结。但我认为简单地熟悉 Brier 评分量表的基准会更有成效,因为这是你通常会看到的:

  • 0 是完美的预测器;
  • 0.25 表示没有预测能力();p^=0.5
  • 1 是一个完美的反预测器()。p^=1,p=0p^=0,p=1

您还可以使用非常简单的模型构建其他基准——例如,如果您忽略有关事件的所有信息并简单地预测基本速率,那么您的 Brier 分数是或者,如果您正在预测时间序列,您可以看到过去几个事件的加权平均值有多好,等等。pp(1p)

您必须回到正确评分规则的动机,您可以粗略地说“得分最低的智能体做出最准确的猜测”。准确地说,评分规则的起源是引出反映真实信念的概率 - 正如您所说,当提供评分规则作为奖励时,一个人只能提供与他们的信念相对应的概率。评分规则已被用于定义概率的含义,而不涉及大量重复的限制。

这样的评分规则是通过将期望置于规则之上而得出的,因此平均值出现在一组预测上。所以当你问“统计泛函必须是平均值”时 您真的在问我们如何通过传统使用平均值以外的其他方法对一组分数进行期望?

我读到了您的担忧,即“正确的评分规则与概率的比例不同”,也许您希望表达计算的分数有多好或多坏?除了 Brier 分数之外,提供的概率和 0,1 结果之间的绝对差的对数也是一个适当的评分规则,但这可能不会给出更多可解释的结果,特别是因为它可能会因大错误而偏离极端值。

隐藏在评分规则推导中的是决策者具有线性效用,因此期望直接接管评分规则,而不是评分规则结果的效用。(一个人可能会对与事实的较大偏差产生不利的风险,这会使他们得出的概率产生偏差。)也许你正在隐含地考虑一个效用函数,它表示“人们会选择什么的概率”的好坏,而不是只是概率本身?