考虑在体育赛事发生时对其结果进行连续预测的场景。我将使用网球作为一个具体的例子,因为它明确定义了做出新预测的时刻(即在每一分之后),但我也对足球等可以以任意频率进行预测的情况感兴趣(例如每五秒一次)。
在网球比赛的每一分打完之后,模型都会做出预测,给出每个球员继续赢得比赛的概率。在与得分,做出了预测,我的问题是这些的表现应该如何总结预测以给出模型在这场比赛中的表现的单一值?
一个明显的起点是Brier 分数,即预测的平均平方误差。然而,采用这种方法可能无法充分惩罚异常值——例如,在其他好的预测中出现一个糟糕的预测。在另一个极端,最大绝对误差可能有利于一组始终平庸的预测,而不是一组非常好的预测和一个糟糕的预测。
这些可能性中的哪一种更可以容忍尚待商榷,但我似乎已经描述了汇总统计的一个普遍问题。我更感兴趣的是专门针对我的场景量身定制的方法,即考虑到这些预测都是根据相同的结果做出的,并且每个预测都是用连续更多的信息做出的。