今天有比尤塞恩博尔特更快的人吗?

机器算法验证 正态分布 极值
2022-03-15 11:16:03

编辑:我对在给定样本统计数据的情况下确定给定总体中“真实”最大值的可能性的技术问题和方法更感兴趣。从创纪录的冲刺时间来估计比博尔特先生跑得更快的可能性存在明显和微妙的问题。想象这并非如此,以此来幽默我。


Usain Bolt 是 100m 冲刺跑最快的人。然而,鉴于运动员人数很少,“真正的”活着最快的人似乎坐在某处的沙发上,并且从未尝试过有竞争力的跑步生涯。

我试图利用正态分布尾部样本之间的差异变得越来越小的事实。我正在使用它来计算存在比 Usain Bolt 更快的人的可能性,方法是将 Usain 与第二快、第三快等进行比较。

为此,我试图通过取正态分布的 CDF 对的导数来计算存在于“Usain Bolt”之外的最大值,并将其提升到第个(其中约为 7,000,000,000 或样本少于“最大值” - 这背后的逻辑在德国坦克问题维基百科页面中进行了描述,该页面概括了不同的分布),例如:ynn

0yfYN(y)dy=λn0y[12[1+erf(yμσ2)]]n112πσ2e(yμ)22σ2dy

  1. 这是计算存在比 Usain Bolt 更快的人的概率的有效方法吗?

  2. 在“其他发行版的德国坦克问题”之外是否有此类问题的名称

  3. 有没有一种从分布的极端样本中估计标准偏差的好方法?查找有关有史以来最快的 100m 短跑的信息很容易,查找平均值和方差很难)

感谢您在与没有该主题背景的程序员打交道时的耐心。

3个回答

与其他答案相反,我认为您可以根据可用数据对螺栓的能力发表一些看法。首先,让我们缩小你的问题。您问的是最快的人类,但由于男性和女性的跑步速度分布存在差异,最好的女性跑步者女性似乎比最好的男性跑步者稍慢,我们应该关注男性跑步者。为了获得一些数据,我们可以查看过去 45 年中 100 次跑步的最佳年份表现关于这个数据有几点需要注意:

  • 这些是最好的跑步时间,所以它们并没有告诉我们所有人类的能力,而是关于最低达到的速度。
  • 我们假设这些数据反映了世界上最好的跑步者的样本。虽然可能发生了更好的跑步者没有参加锦标赛,但这种假设似乎是相当合理的。

首先,让我们讨论如何分析这些数据。您可能会注意到,如果我们绘制运行时间与时间的关系图,我们会观察到强线性关系。

最佳运行时间与时间

这可能会导致您使用线性回归来预测未来几年我们可以观察到多少更好的跑步者。然而,这将是一个非常糟糕的主意,这将不可避免地导致您得出结论,在大约两千年后,人类将能够在零秒内跑完 100 米,然后他们将开始实现负跑时!这显然是荒谬的,因为我们可以想象我们的能力存在某种生物和物理限制,这是我们所不知道的。

你怎么能分析这些数据?首先,请注意我们正在处理有关最小值的数据,因此我们应该为此类数据使用适当的模型。这导致我们考虑极值理论模型(参见例如Stuart Coles的《极值统计建模简介》一书)。您可以为此数据假设广义极值分布(GEV)。如果其中是独立且同分布的随机变量,则遵循 GEV 分布。如果您对建模最小值感兴趣,那么如果是最小值的样本,那么Y=max(X1,X2,,Xn)X1,X2,,XnYiZ1,Z2,,ZkZi的最小值遵循 GEV 分布。因此,我们可以将 GEV 分布拟合到运行速度数据,从而得到非常好的拟合(见下文)。

运行速度的 GEV 分布

如果您查看模型建议的累积分布,您会注意到 Usain Bolt 的最佳运行时间在最低1%分布的尾部。因此,如果我们坚持这些数据和这个玩具示例分析,我们会得出结论,更小的运行时间不太可能(但显然是可能的)。这种分析的明显问题是忽略了我们看到最佳运行时间逐年改进的事实。这让我们回到答案第一部分中描述的问题,即假设这里的回归模型是有风险的。可以改进的另一件事是,我们可以使用贝叶斯方法并假设信息先验,这将解释一些关于生理上可能的运行时间的数据外知识,这可能尚未观察到(但是,据我所知,目前未知)。最后,类似的极值理论已经用于体育研究,例如 Einmahl 和 Magnus (2008) 在通过极值理论论文记录田径运动。

你可以抗议说你没有问更快的跑步时间的概率,而是关于观察到更快的跑步者的概率。不幸的是,在这里我们不能做太多,因为我们不知道跑步者成为职业运动员的概率是多少,并且记录的跑步时间可供他使用。这不是随机发生的,有很多因素导致一些跑步者成为职业运动员,而另一些则不是(或者甚至有人喜欢跑步和跑步)。为此,我们必须有关于跑步者的详细人群数据,此外,由于您询问的是分布的极端情况,因此数据必须非常大。所以在这一点上,我同意其他答案。

我的第一直觉是这是一个坏主意,但让我分解一下为什么。

1)你想测量一个不可观察的变量,潜在的跑步技巧,用一个可观察的,记录的跑步时间。没关系,但是:在德国坦克问题中,序列号都是由相同的均匀分布生成的。在您的问题中,您必须从可观察的变量运行时间推断潜在变量技能(70 亿人)。在 GTP 中,多个序列号是已知的。在您的问题中,您根本没有收集任何数据,只是在进行最大值(螺栓)。此外,您似乎认为这种无法观察到的潜在技能与实际跑步时间无关,以至于根本没有跑步的人可能比 Bolt 更好。这似乎很荒谬!

2) 运动员不是人群中的随机样本。它们是通过多次试验精心挑选出来的。如果我们假设每个有跑步能力的人一生中可能至少与某人比赛过一次,并且每个人都根据他们赢得这些比赛的频率或多少来决定是否应该继续参加更高水平的比赛种族——那么博尔特真的是世界上最快的人似乎并不令人难以置信。

这些只是我想到的第一个原因。老实说,你在这件事上有点傻。没有办法衡量你所说的那种事情的“概率”。

答案是不。

你假设有一个来自人群(运动员)的样本,而 Bolt 是这个样本的最大值。因此,您正在寻找总体最大值大于样本最大值的概率。那是你的假设。

如果您的假设是错误的,并且样本确实是总体怎么办?

我可以提出一个合理的论点,即每个能跑的人都有机会击败他。没有人这样做,所以他是地球人口的真正最大值。

很明显,运动员不是随机样本。我希望对此没有任何疑问。当然,一个人成为运动员的方式存在一定程度的随机性。另一方面,如果一个人不是运动员,那么他的运动技能和成就就无法与运动员相提并论。我可以认为,考虑到所有训练条件和像博尔特一样刻苦的训练,有人可能会比博尔特跑得更快。但是,在田径条件下,您拉一名非运动员并且他在 100 米短跑中击败博尔特的概率为零。