如何评价在事件发生时对事件结果的连续预测?

机器算法验证 预言
2022-04-06 02:21:48

考虑在体育赛事发生时对其结果进行连续预测的场景。我将使用网球作为一个具体的例子,因为它明确定义了做出新预测的时刻(即在每一分之后),但我也对足球等可以以任意频率进行预测的情况感兴趣(例如每五秒一次)。

在网球比赛的每一分打完之后,模型都会做出预测,给出每个球员继续赢得比赛的概率。在与N得分,N做出了预测,我的问题是这些的表现应该如何N总结预测以给出模型在这场比赛中的表现的单一值?

一个明显的起点是Brier 分数,即预测的平均平方误差。然而,采用这种方法可能无法充分惩罚异常值——例如,在其他好的预测中出现一个糟糕的预测。在另一个极端,最大绝对误差可能有利于一组始终平庸的预测,而不是一组非常好的预测和一个糟糕的预测。

这些可能性中的哪一种更可以容忍尚待商榷,但我似乎已经描述了汇总统计的一个普遍问题。我更感兴趣的是专门针对我的场景量身定制的方法,即考虑到这些预测都是根据相同的结果做出的,并且每个预测都是用连续更多的信息做出的。

1个回答

我更感兴趣的是专门针对我的场景量身定制的方法,即考虑到这些预测都是根据相同的结果做出的,并且每个预测都是用连续更多的信息做出的。

这是关键:为了让您的预测器能够被接受,它应该会在我们接近比赛结束时变得更好,因为它使用越来越多的信息。要应用修改后的 Brier-score 逻辑,让oF成为二进制{0,1}代表游戏的最终结果(比如“1" = 玩家 A 获胜),Ik是包含可用信息的集合,包括截至阶段的事件k游戏,并让fk(oF=1Ik)是给定此信息的玩家 A 获胜的预测概率。然后我们可以定义一个“累积的”类似 Brier 的分数为

BSk=1ki=0k(fi(oF=1Ii)oF)2k=0,...,N

(我已经包括k=0覆盖游戏开始前的预测)。那么,对一个好的预测器的合理需求是序列{BSk}正在减少。比较两个相互竞争的预测变量相当于比较它们的下降率。

您也可以轻松尝试“移动窗口”表达式,如果过去的信息变得“足够老”,它会被丢弃 - 这取决于您认为与预测结果相关的信息,并最终将其作为预测器的输入。

当然,如果你的预测者是人,你不需要找出他们的预测函数——你只需记录他们的预测并进行比较。