直观地理解为什么泊松分布是二项分布的极限情况

机器算法验证 二项分布 泊松分布 组合学 直觉 概率演算
2022-03-09 17:04:43

在 DS Sivia 的“数据分析”中,从二项分布推导出泊松分布。

他们认为泊松分布是二项分布的极限情况,当M, 在哪里M是试验次数。

问题 1:如何直观地理解该论点?

问题2:为什么大-M限制M!N!(MN)!等于MNN!, 在哪里N是成功的次数M试验?(此步骤用于推导。)

4个回答

让我提供一个替代的启发式。我将展示如何将泊松过程近似为二项式(并认为该近似对于许多低概率试验更好)。因此二项式分布必须趋于泊松分布。

假设事件以恒定的时间速率发生。我们想知道一天发生了多少事件的分布,知道预期的事件数是λ.

那么,每小时的预期事件数是λ/24. 假设这意味着在给定小时内发生事件的概率是λ/24. [这不太正确,但如果λ/241基本上,如果我们可以假设多个事件不会在同一小时内发生]。然后我们可以将事件数量的分布近似为二项式M=24试验,每个试验都有成功的概率λ/24.

我们通过将间隔切换为分钟来改进近似值。然后就是p=λ/1440M=1440试验。如果λ大约是 10 点,那么我们可以非常确信没有一分钟有两个事件。

当然,如果我们切换到秒会更好。现在我们正在看M=86400小概率事件λ/86400.

不管你有多大λ是,我最终可以选择一个足够小的Δt这样很可能没有两个事件在同一时间间隔内发生。那么对应的二项分布Δt将与真正的泊松分布完美匹配。

它们不完全相同的唯一原因是两个事件在同一时间间隔内发生的概率非零。但鉴于只有周围λ事件,它们被分配到一些数量远大于λ,它们中的任何两个都不太可能位于同一个 bin 中。

或者换句话说,二项分布倾向于泊松分布M如果成功概率是p=λ/M.

问题是您将泊松描述为二项式分布的极限情况并不完全正确

在以下情况下,泊松是二项式的极限情况:

MandMpλ.
第二部分很重要。如果p保持不变,第一个条件意味着利率也将无限制地增加。

泊松分布假设事件是罕见的我们所说的“罕见”并不是说事件发生率很小——事实上,泊松过程可能具有非常高的强度λ——而是,事件发生在任何时刻的概率[t,t+dt)非常小。这与二项式模型相反,其中概率p对于任何给定的试验,事件(例如“成功”)是固定的。

为了说明,假设我们对一系列M独立的伯努利试验,每个试验都有成功的概率p,我们看看成功次数的分布会发生什么变化X作为M. 对于任何N随心所欲,无论多小p是,预期的成功次数E[X]=Mp>N为了M>N/p. 换句话说,无论成功的可能性有多大,如果你进行了足够多的试验,最终你可以获得尽可能多的平均成功次数。所以,M(或者,只是说“M很大”) 不足以证明泊松模型的合理性X.

不难代数建立

Pr[X=x]=eλλxx!,x=0,1,2,
作为极限情况
Pr[X=x]=(Mx)px(1p)Mx,x=0,1,2,,M
通过设置p=λ/M并让M. 这里的其他答案已经解决了这种关系背后的直觉,并提供了计算指导。但重要的是p=λ/M. 你不能忽视这一点。

我将尝试一个简单直观的解释。记录二项式随机变量XBin(n,p)我们的期望是np和方差是np(1p). 现在想想X记录了非常多的事件数量n试验,每个试验的概率都非常小p, 这样我们就非常接近1p=1(真的)。然后我们有np=λ说,和np(1p)np1=λ, 所以均值和方差都等于λ. 然后请记住,对于泊松分布的随机变量,我们总是使均值和方差相等!这至少是泊松近似的合理性论证,但不是证明。

那就换个角度看吧,泊松点过程https://en.wikipedia.org/wiki/Poisson_point_process 上的真线。如果随机点按照规则出现,这是我们得到的线上随机点的分布:

  1. 不相交区间中的点是独立的
  2. 在很短的区间内随机点的概率与区间的长度成正比
  3. 在很短的时间间隔内出现两个或多个点的概率基本上为零。

那么给定区间(不一定短)的点数分布是泊松(带参数λ与长度成正比)。现在,如果我们将这个区间划分为非常多、同样非常短的子区间(n),给定子区间中两个或多个点的概率基本上为零,因此该数字将具有非常好的近似值,即伯诺利分布,即Bin(1,p),所以所有这些的总和将是Bin(n,p),因此很好地近似了该(长)区间中点数的泊松分布。

来自@Ytsen de Boer (OP) 的编辑:@Łukasz Grad 满意地回答了第 2 个问题。

问题 1

回想一下二项分布的定义:

在给定次数的试验中,成功结果的可能数量的频率分布,其中每一次试验都有相同的成功概率。

将此与泊松分布的定义进行比较:

离散 频率 分布 , 给出 在 固定时间发生 的 一些 独立 事件 的 概率.

2之间的实质性区别是二项式在n试验,泊松在一段时间内t. 极限如何直观地出现?

假设您必须永远进行伯努利试验。此外,你运行n=30每分钟。您每分钟计算一次成功。因此,对于所有永恒,您都在运行Bin(p,30)每分钟处理一次。超过 24 小时,您有一个Bin(p,43200).

当您感到疲倦时,系统会询问您“18:00 到 19:00 之间发生了多少次成功?”。你的答案可能是3060p,即您提供一小时内的平均成功率。这听起来很像泊松参数λ对我来说。