了解等级概率分数

机器算法验证 预测 预测模型 模型选择
2022-04-07 04:50:45

排名概率分数 (RPS) 是衡量以概率分布表示的预测在匹配观察到的结果方面的好坏程度的度量。在判断分布与观测值的接近程度时,要考虑预测分布的位置和分布。

RPS=1r1i=1r(j=1ipjj=1iej)2,

在哪里r是结果的数量,pj是结果的预测概率jej是结果的实际概率j. 特殊情况r=2给出 brier 分数。

分数介于 0 和 1 之间,分数越低越好,但是 0.8 的值是否意味着您的预测不是很好?或者这类似于R2,例如,低值并不一定意味着您的模型不好,它更适合在模型之间进行比较。

起初我认为它不太可能说明您的预测(至少与另一个模型无关),但随后考虑两个结果(r=2) 并假设您的模型预测每个结果以 0.5 的概率发生。然后无论结果如何,RPS 都会给出 0.25。所以一般来说,大于 0.25 的 RPS 值表示您的模型预测了错误的结果,而较低的值表示您的模型预测了正确的结果。

不幸的是,这个想法不适用于r=3. 取三个结果的概率为 1/3,当结果 1、2 和 3 实际发生时,RPS 值分别为 5/9、2/9 和 5/9。不过,这确实是有道理的,当结果 2 发生时预测结果 1 比在结果 3 发生时预测结果 1 更好,这正是预测绩效评估者的动机。尽管如此,我还是认为它只适合比较模型。

第二个问题:R2是模型中回归变量“解释”的响应变化的比例。RPS 是否有类似的解释?

最后,如果一个模型进行了许多预测——比如它预测下一个结果,观察结果,更新模型,然后模型预测下一个结果——将简单地平均每个预测结果的个人排名概率分数是适当的,用于比较两个模型?我认为这是合理的,但显然更喜欢一些正式的推理。

2个回答

Hersbach 中的公式 7启发我注意到 RPS(作为连续 RPS 或 CRPS 的离散版本)是在多个概率阈值上评估的多个 Brier 二次概率分数 (BS) 的总和。(Hersbach 继续为集合预测开发 CRPS 的可解释分解。)

RPS=i=1rBS(i),

在哪里BS(i)是对感兴趣的结果是第一个概率的单一预测的 Brier 分数i(在......之外r可能的结果。

将 RPS 视为 Brier 分数的总和可能很有趣,因为 Brier 分数是三个可解释组件的总和(参见wikipedia此处的第 754 页):

BS=reliabilityresolution+uncertainty

可靠性是衡量不存在偏差的指标。

分辨率在某种程度上类似于回归中的 R 平方(但不要寻找确切的类比,因为对于具有二元结果的预测没有明确的 R 平方定义)。

不确定性有点类似于回归中的残差标准误差。

如果您将 RPS 视为 Brier 分数的总和(或平均值),并且如果您喜欢上面提到的 Brier 分数分解,那么肯定有一种方法可以将 RPS 写成类似

RPS=Rel¯Res¯+Unc¯

其中右侧的项是 Brier 分数分解分量在r基础布赖尔分数。

因此,从启发式意义上说,我猜如果您花时间进行分解,那么您将得到的最接近 RPS 的“R 平方”是“平均 BS R 平方”。

有关 RPS 分解的相对严格的讨论,请参见Candille 和 Talagrand 中的等式 (8b) 。

您写道:“将三个结果的概率设为 1/3,则 RPS 值为 5/9、2/9 和 5/9……”

这是不正确的。当所有三个结果被赋予相同权重时,正确的 RPS 值是 {5/18, 1/9, 5/18}。你忘了除以 2。