一连串的飞机事故有多奇怪?

机器算法验证 可能性 泊松分布
2022-01-24 10:22:21

原始问题(7/25/14):新闻媒体的这句话是否有意义,或者有没有更好的统计方式来查看最近发生的飞机事故?

然而,Barnett 也提请注意泊松分布理论,这意味着崩溃之间的短间隔实际上比长间隔更可能发生。

“假设每年平均发生一起致命事故,这意味着任何一天发生事故的几率是 365 分之一,”巴内特说。“如果在 8 月 1 日发生崩盘,那么下一次崩盘在一天后的 8 月 2 日发生的可能性是 1/365。但下一次崩盘发生在 8 月 3 日的可能性是 (364/365) x (1/365) ,因为只有在 8 月 2 日没有崩溃的情况下,才会在 8 月 3 日发生下一次崩溃。”

“这似乎违反直觉,但结论无情地遵循概率定律,”巴内特说。

来源:http ://www.bbc.com/news/magazine-28481060

澄清(2014 年 7 月 27 日):与直觉相反的(对我来说)是说罕见事件往往会及时发生。直觉上,我认为罕见事件不会及时发生。谁能指出在泊松分布假设下事件之间时间的理论或经验预期分布?(即,直方图,其中 y 轴是频率或概率,x 轴是 2 次连续发生之间的时间,分为天、周、月或年等。)谢谢。

澄清(2014 年 7 月 28 日):标题暗示它更有可能发生集群事故而不是广泛间隔的事故。让我们将其付诸实施。假设一个集群是3起飞机事故,短期是3个月,长期是3年。认为 3 个月内发生 3 起事故的概率高于 3 年内发生的概率似乎不合逻辑。即使我们认为第一次事故是给定的,认为与未来 3 年内相比,未来 3 个月内会再发生 2 起事故是不合逻辑的。如果这是真的,那么新闻媒体的标题就是误导和不正确的。我错过了什么吗?

4个回答

记者所说的是,飞机失事的随机发生可以建模为泊松过程——在这种情况下,事件在某个(小)间隔内发生的概率与所述间隔的长度成正比,并且每次发生在独立于所有其他人。

对于所描述的场景,这是一个合理的模型吗?

大概。

当然,这些事件可能不是100% 独立的,因为其他飞行员可能会在坠机后改变他们的行为(如果只是非常轻微的话)。[我不知道——也许一些飞行员会做一些额外的模拟器训练或类似的训练]。尽管如此,独立的假设仍然是完全合理的。

飞机失事群怎么办?

是的。给定一个泊松过程(甚至是其他一些随机过程),您期望看到一些事件集群。

事实上,正如牛津统计词典在其泊松过程条目中所描述的(这是“随机性的数学描述”):

[R]andomness usually gives rise to apparent clustering, despite the natural
expectation that randomness would lead to regularity.

例如,看看这个简单的R代码:

set.seed(123)
x <- runif(500)
y <- runif(500)

plot(x, y, pch=20, col='blue', main="A Random Distribution of Points")

产生:
注意到结块了吗?

尽管我们知道这是一个随机点图,但它看起来似乎有一些随机位 - 具体来说,在图的某些部分有点团块,而其他部分是敞开的。本文试图描述的正是这种行为(仅使用时间序列数据而不是空间数据)。


更新:

@JoelW.:例如,假设明天(或任何一天)飞机坠毁的概率是“ p ”(并且,假设“ p ”大约是百分之一)。

下一次空难发生在明天的可能性比它更可能发生在恰好一年内(即 2015 年 7 月 26)的原因是因为下一次空难发生在恰好一年内的概率等于:

= Prob(crash tomorrow) * Prob(365 days with *no* crashes)

有道理?

最终,我认为这些事情是反直觉的原因是因为通常当我们想到这样一个短语时:"The odds of a plane crash in one month compared with the odds of one happening tomorrow". 我们自然不会立即考虑恰好从一个月开始的 24 小时周期。相反,我们(或者至少我这样做)倾向于更灵活地考虑它。所以更像:a month ± a week那以及我们忘记考虑在此期间不会发生崩溃的可能性的事实......(但同样,也许这只是我......)。

呸!


其他资源:

  • 维基百科关于集群错觉的文章
  • 一个pdf,其中特别提到了飞机失事的“聚类”(第 8 页)并简要描述了泊松过程的数学。

如果飞机失事的数量是泊松分布的(正如他似乎所说的那样),那么坠机之间的时间呈指数分布。指数分布的 pdf 是时间的单调递减函数。因此,较早的崩溃比后来的崩溃更有可能发生。

摘要:引用的 BBC 段落中的第一句话是草率和误导性的。

尽管以前的答案和评论已经提供了很好的讨论,但我觉得主要问题没有得到令人满意的回答。

所以让我们假设在任何一天发生飞机失事的概率是p=1/365并且崩溃是相互独立的。让我们进一步假设一架飞机在 1 月 1 日坠毁。下一架飞机何时坠毁?

好吧,让我们做一个简单的模拟:对于接下来三年的每一天,我将随机决定是否有另一架飞机坠毁的概率p并注意下一次崩溃的日期;我将重复此过程100000次。这是生成的直方图:

平面破碎机的分布,一个模型

事实上,概率分布简单地由下式给出Pr(t)=(1p)tp, 在哪里t是天数。我将这个理论分布绘制为一条红线,您可以看到它非常适合蒙特卡洛直方图。备注:如果时间在越来越小的箱中离散化,这种分布将收敛到指数分布;但这对于这次讨论并不重要。

正如许多人在这里已经指出的那样,这是一条递减曲线。这意味着下一架飞机在第二天(1 月 2 日)坠毁的概率高于下一架飞机在任何其他给定日期(例如明年 1 月 2 日)坠毁的概率(差值几乎是三倍:0.27%0.10%)。

但是,如果你问未来三天下一架飞机坠毁的概率是多少,答案是0.8%,但如果你问三天后崩溃的概率是多少,但在未来三年内,那么答案是94%. 因此,很明显,它在未来三年内(但在前三天之后)比在接下来的三天内崩溃的可能性更大。之所以会产生混淆,是因为当您说“聚集事件”时,您指的是分布中很小的初始部分,但当您说“间隔较宽”的事件时,您指的是其中的很大一部分。这就是为什么即使使用单调递减的概率分布,“集群”(例如三天内发生两起飞机失事)肯定也不太可能发生。

这是另一个直方图,可以真正理解这一点。它只是几个非相交时间段内先前直方图的总和:

平面压碎频率直方图

其他答案已经处理了独立事件如何聚集。(多年前阅读格莱克的《混沌》,让我对这个想法大开眼界。)

但是,事实上有强有力的证据表明飞机失事不是独立事件。Cialdini's Influence在这方面有一个很好的章节(也提到了这里有几个数据链接;我找到了这本书的那部分的摘录)。显然这是非常有争议的:它基本上是说空难越公开,就越有可能影响飞行员(有意或无意地)坠毁他的飞机。但该假设背后的心理解释似乎是合理的,而且数据似乎也支持它。

(欢迎在评论中提供基于统计数据的揭穿研究的链接。)