机器算法验证 - 如何评价在事件发生时对事件结果的连续预测？ - 吾爱随笔录

如何评价在事件发生时对事件结果的连续预测？

机器算法验证预言

2022-04-06 02:21:48

考虑在体育赛事发生时对其结果进行连续预测的场景。我将使用网球作为一个具体的例子，因为它明确定义了做出新预测的时刻（即在每一分之后），但我也对足球等可以以任意频率进行预测的情况感兴趣（例如每五秒一次）。

在网球比赛的每一分打完之后，模型都会做出预测，给出每个球员继续赢得比赛的概率。在与 $N$ 得分， $N$ 做出了预测，我的问题是这些的表现应该如何 $N$ 总结预测以给出模型在这场比赛中的表现的单一值？

一个明显的起点是Brier 分数，即预测的平均平方误差。然而，采用这种方法可能无法充分惩罚异常值——例如，在其他好的预测中出现一个糟糕的预测。在另一个极端，最大绝对误差可能有利于一组始终平庸的预测，而不是一组非常好的预测和一个糟糕的预测。

这些可能性中的哪一种更可以容忍尚待商榷，但我似乎已经描述了汇总统计的一个普遍问题。我更感兴趣的是专门针对我的场景量身定制的方法，即考虑到这些预测都是根据相同的结果做出的，并且每个预测都是用连续更多的信息做出的。

1个回答

我更感兴趣的是专门针对我的场景量身定制的方法，即考虑到这些预测都是根据相同的结果做出的，并且每个预测都是用连续更多的信息做出的。

这是关键：为了让您的预测器能够被接受，它应该会在我们接近比赛结束时变得更好，因为它使用越来越多的信息。要应用修改后的 Brier-score 逻辑，让 $o_F$ 成为二进制 $\{0,1\}$ 代表游戏的最终结果（比如“ $1$ " = 玩家 A 获胜）， $I_k$ 是包含可用信息的集合，包括截至阶段的事件 $k$ 游戏，并让 $f_k(o_F=1\mid I_k)$ 是给定此信息的玩家 A 获胜的预测概率。然后我们可以定义一个“累积的”类似 Brier 的分数为

B S_{k} = \frac{1}{k} \sum_{i = 0}^{k} (f_{i} (o_{F} = 1 ∣ I_{i}) - o_{F})^{2} k = 0, . . ., N

$BS_k = \frac 1k\sum_{i=0}^k \Big(f_i(o_F=1\mid I_i) - o_F\Big)^2 \qquad k=0,...,N$

（我已经包括 ${k=0}$ 覆盖游戏开始前的预测）。那么，对一个好的预测器的合理需求是序列 $\{BS_k\}$ 正在减少。比较两个相互竞争的预测变量相当于比较它们的下降率。

您也可以轻松尝试“移动窗口”表达式，如果过去的信息变得“足够老”，它会被丢弃 - 这取决于您认为与预测结果相关的信息，并最终将其作为预测器的输入。

当然，如果你的预测者是人，你不需要找出他们的预测函数——你只需记录他们的预测并进行比较。

其它你可能感兴趣的问题

上一篇如何合并来自 2 个独立实验的数据？下一篇如何检查多元回归的线性