排名概率分数 (RPS) 是衡量以概率分布表示的预测在匹配观察到的结果方面的好坏程度的度量。在判断分布与观测值的接近程度时,要考虑预测分布的位置和分布。
在哪里是结果的数量,是结果的预测概率和是结果的实际概率. 特殊情况给出 brier 分数。
分数介于 0 和 1 之间,分数越低越好,但是 0.8 的值是否意味着您的预测不是很好?或者这类似于,例如,低值并不一定意味着您的模型不好,它更适合在模型之间进行比较。
起初我认为它不太可能说明您的预测(至少与另一个模型无关),但随后考虑两个结果() 并假设您的模型预测每个结果以 0.5 的概率发生。然后无论结果如何,RPS 都会给出 0.25。所以一般来说,大于 0.25 的 RPS 值表示您的模型预测了错误的结果,而较低的值表示您的模型预测了正确的结果。
不幸的是,这个想法不适用于. 取三个结果的概率为 1/3,当结果 1、2 和 3 实际发生时,RPS 值分别为 5/9、2/9 和 5/9。不过,这确实是有道理的,当结果 2 发生时预测结果 1 比在结果 3 发生时预测结果 1 更好,这正是预测绩效评估者的动机。尽管如此,我还是认为它只适合比较模型。
第二个问题:是模型中回归变量“解释”的响应变化的比例。RPS 是否有类似的解释?
最后,如果一个模型进行了许多预测——比如它预测下一个结果,观察结果,更新模型,然后模型预测下一个结果——将简单地平均每个预测结果的个人排名概率分数是适当的,用于比较两个模型?我认为这是合理的,但显然更喜欢一些正式的推理。