NFL球队的失误率应该是正态分布吗?

机器算法验证 分布 正态分布 泊松分布
2022-04-03 02:48:27

互联网上有很多关于爱国者队的垃圾统计数据,但我只是好奇那些精通统计数据的人对此有什么看法。

主要问题是 - 在什么情况下,NFL 球队 (x) 的赛季失误 (y) 分布是正态分布?在什么情况下不会?

我的想法很简单——如果每场比赛/赛季每支球队的失误率相等(这是一个很大的假设),这将是一个正态分布。

非随机的、独立的因素——比如球员的技能、比赛指挥、教练、激励、主场质量、潜在的作弊或其他任何因素——对失误的影响越多,看起来就越不正常率。

我的思维过程是否正确?

我还听到很多人评论说,NFL 球队每个赛季的失误分布实际上是泊松分布。

我以前处理过泊松分布,这看起来很荒谬,而且完全偏离基础,尽管我可能是错的。泊松分布不是通常用于完全不同的情况吗?我认为它用于建模什么时候可能会在接下来的一个小时内打来电话,或者当骰子可能在 N 次投掷后出现 6 时。我可以看到 N 次比赛的建模失误分布,但比较 NFL 球队的赛季失误?

任何想法都值得赞赏——我对这个媒体问题不太感兴趣——我几乎不喜欢足球——我对数字更感兴趣。我什至不认为这里有问题的数据(爱国者队的失误率是一个异常值)在任何情况下都没有被收集或挪用来回答正确的问题。

2个回答

理论上,正态分布具有非零概率的负数。所以就这样了。正态分布也具有完全连续的分布,而摸索率将是离散的或理性的。

它可能非常接近,并且足够好,例如,许多二项式的总和(在 100 场比赛中出现失败或失败的概率为 x%)接近正常的钟形曲线。

人们之所以选择泊松,是因为它是一个离散的计数变量,整数结果由独立结果定义;也就是说,如果每场比赛都有一致的失误概率,那么超过 100 场比赛的最终结果失误数将是泊松分布的。

如果排名内有任何相关性,那么它不会是任何理论上的(干净的)分布。例如,如果有很多失误会减少你在那场比赛中的总比赛次数,那么这是一个自相关的分数,事情就会变得一团糟。我确实相信,如果你的前十场比赛都出现失误(不太可能但可能),那么你可能不会再得到了。它绝对不是偶数概率的独立总和。

如果允许教练将一名犯过几次失误的球员带走,那么从那一刻起,比率会降低,这是另一个得分的非独立性。

无论如何,实际观察到的分布肯定看起来很像正常情况。你有我们可以玩的数据吗?

编辑:我们在此链接上看到一些数据: http ://www.sharpfootballanalysis.com/blog/2015/the-new-eng ;land-patriots-mysteriously-became-fumble-proof-in-2007 感谢 Affine 发现.

在那篇文章中,声明更加明确:“基于每次摸索遵循正态分布的假设,根据随机波动,你会期望看到爱国者队自 2007 年以来在 5842 次实例中获得的结果。”

这是一个畸形的假设,您永远不会关心确切答案的概率,感兴趣的问题是任何结果结合起来如此极端或更高的可能性有多大。一个点的结果有一个极其罕见的概率,但是如果分布有一个肥尾,那么可能会发生更极端的结果,而异常事件真的没有那么极端。由于这是一个逆分布,每次失误的接触次数,将这两个变量都视为随机泊松,每场比赛你会获得如此多的接触,每场比赛你会看到如此多的失误。该比率将有一条长尾,因为它可能有很多次接触而很少有失误。异常值是意料之中的,即使查看前十年的结果,56 TpF 的异常值也没有得到博客作者的任何评论。

NFL 球队 (x) 的赛季失误 (y) 分布是否是正态分布?

在任何情况下,非负离散随机变量实际上都不是正常的。

在某些情况下(不考虑离散性),它作为一个近似值可能并不可怕,但它不会是我要研究的第一个近似值。

如果每支球队每场比赛/赛季的失误率相等,这将是一个正态分布

- 不,那不会这样做......尽管同质性可能会导致比其他情况更少的偏斜分布。

NFL球队的失误/赛季分布实际上是泊松分布

- 好吧,至少它并没有立即被变量的域排除,但是(除了可能作为粗略的近似值之外)我认为它很容易被拒绝作为一种可能性;我预计异质性(跨团队组成、反对、条件等)会使它更加严重地倾斜;也可能存在一些连续依赖(除了由异质性导致的间歇性变化引起的)。

“* 用于在接下来的一个小时内可能会打来电话,或者在投掷 N 次后可能会出现 6 次骰子时进行建模*”

  • 一个电话可能来的时候是连续的,所以没有。

  • “当一个骰子可能出现 6 ......” - 再次,不。您对随机变量的描述在那里并不完全清楚,但这听起来像是“前 6 次投掷次数”(几何分布)、“第 N 次 6 次投掷次数”(负二项式)之一) 或“N 次投掷中 6 的数量”(二项式)——但即使你的意思是别的,它仍然不是泊松。(注意' dice '是复数,' die '是单数,所以只有' a die '。你至少需要两个' dice ')

相比之下,泊松的“每季失误”至少是一个合理的建议,但我认为由于各种原因,它也不会是泊松。