首先,他给出了结果的概率。因此,例如,他对美国大选的预测目前是 82% 的克林顿对 18% 的特朗普。
现在,即使特朗普赢了,我怎么知道他本应该赢的不只是 18%?
另一个问题是他的概率随时间而变化。所以在 7 月 31 日,特朗普和克林顿之间的比分几乎是 50-50。
我的问题是,鉴于他每天对于相同的未来事件具有相同结果的不同概率,我如何衡量他根据当天可用的信息做出预测的每一天的准确度?
首先,他给出了结果的概率。因此,例如,他对美国大选的预测目前是 82% 的克林顿对 18% 的特朗普。
现在,即使特朗普赢了,我怎么知道他本应该赢的不只是 18%?
另一个问题是他的概率随时间而变化。所以在 7 月 31 日,特朗普和克林顿之间的比分几乎是 50-50。
我的问题是,鉴于他每天对于相同的未来事件具有相同结果的不同概率,我如何衡量他根据当天可用的信息做出预测的每一天的准确度?
可以使用以下方法评估概率预测(或众所周知的密度预测)计分规则,即将密度预测和观察到的结果映射到所谓的分数的函数,如果密度预测确实是要预测的真实密度,则在期望中最小化。正确的评分规则是仅通过真实的未来密度在预期中最小化的评分规则。
有很多这样的适当评分规则可用,从概率天气预报背景下的Brier (1950, Monthly Weather Review )开始。查多等人。(2009, Biometrics )给出了离散案例的最新概述。Gneiting 和 Katzfuss(2014 年,统计及其应用年度回顾)总体上概述了概率预测 - 特别是 Gneiting 在推进适当的评分规则方面非常积极。
然而,评分规则有点难以解释,它们实际上只有助于比较多个概率预测——分数越低越好。直到抽样变化,也就是说,最好有很多预测来评估,我们会平均它们的分数。
如何包括对 Silver 或其他人预测的“更新”是一个很好的问题。我们可以使用评分规则来比较单个时间点不同预测的“快照”,或者我们甚至可以查看 Silver 随时间推移的概率预测并计算每个时间点的分数。人们希望分数越来越低(即密度预测越来越好),实际结果越接近实际结果。
在 Nate Silver 的《信号与噪声》一书中,他写了以下内容,这可能会为您的问题提供一些见解:
预测最重要的测试之一——我认为它是最重要的一个——称为校准。在你说有 40% 的几率下雨的所有时间中,实际上下雨的频率是多少?如果从长远来看,大约 40% 的时间确实下雨,这意味着您的预测得到了很好的校准。如果结果只是 20% 的时间下雨,或者 60% 的时间,他们不会。
所以这提出了几点。首先,正如您正确指出的那样,您真的无法根据您预测的事件结果对单个预测的质量做出任何推断。您可以做的最好的事情是查看您的模型在许多预测过程中的表现。
另一件需要考虑的重要事情是,Nate Silver 提供的预测不是事件本身,而是事件的概率分布。因此,在总统竞选的情况下,他正在估计克林顿、特朗普或约翰逊赢得竞选的概率分布。因此,在这种情况下,他正在估计多项分布。
但他实际上是在更精细的层面上预测比赛。他的预测估计了每个候选人将在每个州获得的选票百分比的概率分布。因此,如果我们考虑 3 个候选者,这可能以长度为 51 * 3 的随机向量为特征,并在区间 [0, 1] 中取值,受制于一个状态内的比例的比例总和为 1 的约束。数字 51 是因为其他是 50 个州 + DC(实际上我认为它实际上是更多,因为有些州可以拆分他们的选举团投票),而数字 3 是由于候选人的数量。
现在你没有太多数据来评估他的预测——他只提供了我所知道的最近 3 次选举的预测(还有更多吗?)。因此,我认为没有任何方法可以公平地评估他的模型,除非您实际上拥有该模型并且可以使用模拟数据对其进行评估。但是你仍然可以看到一些有趣的东西。例如,我认为看看他在特定时间点(例如选举后一周)预测各州投票比例的准确程度会很有趣。如果您在多个时间点重复此操作,例如一周、一个月、6 个月和一年,那么您可以为他的预测提供一些非常有趣的阐述。一个重要的警告:选举中各州的结果高度相关,因此您不能真的说您有 51 个州 * 3 个选举独立预测实例(即,如果模型低估了一个州的候选人表现,它也会倾向于低估其他州的表现) . 但也许无论如何我都会这样想,这样你就有足够的数据来做任何有意义的事情。
对于任何你无法预测的单一预测,我们无法判断“这枚硬币有 60% 的机会正面朝上”的说法是否在一次抛掷中接近正确。
但是,您可以通过许多预测来评估他的方法——对于给定的选举,他做出了很多预测,不仅是关于总统竞选的总体预测,而且还有许多与总统投票和许多其他种族(众议院、参议院、州长等等),并且随着时间的推移,他还使用了广泛相似的方法。
有很多方法可以进行这种评估(有些相当复杂),但我们可以看看一些相对简单的方法来了解它。例如,您可以将获胜概率的预测分成例如(50-55%、55-65% 等)的区间,然后查看该区间中出现的预测比例;50-55% 的预测有效的比例应该在 50-55% 之间,具体取决于平均值的位置(加上随机变化的余量*)。
因此,通过这种方法(或各种其他方法),您可以看到结果的分布是否与一次选举或多次选举的预测一致(如果我没记错的话,我认为他的预测往往比他们应该的正确,这表明他的标准误平均被略微高估了)。
*我们必须小心如何评估它,尽管因为预测不是独立的。