机器算法验证 - 直观地理解为什么泊松分布是二项分布的极限情况 - 吾爱随笔录

直观地理解为什么泊松分布是二项分布的极限情况

机器算法验证二项分布泊松分布组合学直觉概率演算

2022-03-09 17:04:43

在 DS Sivia 的“数据分析”中，从二项分布推导出泊松分布。

他们认为泊松分布是二项分布的极限情况，当 $M\rightarrow\infty$ ，在哪里 $M$ 是试验次数。

问题 1：如何直观地理解该论点？

问题2：为什么大- $M$ 限制 $\frac{M!}{N!(M-N)!}$ 等于 $\frac{M^{N}}{N!}$ ，在哪里 $N$ 是成功的次数 $M$ 试验？（此步骤用于推导。）

4个回答

让我提供一个替代的启发式。我将展示如何将泊松过程近似为二项式（并认为该近似对于许多低概率试验更好）。因此二项式分布必须趋于泊松分布。

假设事件以恒定的时间速率发生。我们想知道一天发生了多少事件的分布，知道预期的事件数是 $\lambda$ .

那么，每小时的预期事件数是 $\lambda/24$ . 假设这意味着在给定小时内发生事件的概率是 $\lambda/24$ . [这不太正确，但如果 $\lambda/24 \ll 1$ 基本上，如果我们可以假设多个事件不会在同一小时内发生]。然后我们可以将事件数量的分布近似为二项式 $M=24$ 试验，每个试验都有成功的概率 $\lambda/24$ .

我们通过将间隔切换为分钟来改进近似值。然后就是 $p=\lambda/1440$ 和 $M=1440$ 试验。如果 $\lambda$ 大约是 10 点，那么我们可以非常确信没有一分钟有两个事件。

当然，如果我们切换到秒会更好。现在我们正在看 $M=86400$ 小概率事件 $\lambda/86400$ .

不管你有多大 $\lambda$ 是，我最终可以选择一个足够小的 $\Delta t$ 这样很可能没有两个事件在同一时间间隔内发生。那么对应的二项分布 $\Delta t$ 将与真正的泊松分布完美匹配。

它们不完全相同的唯一原因是两个事件在同一时间间隔内发生的概率非零。但鉴于只有周围 $\lambda$ 事件，它们被分配到一些数量远大于 $\lambda$ ，它们中的任何两个都不太可能位于同一个 bin 中。

或者换句话说，二项分布倾向于泊松分布 $M \to \infty$ 如果成功概率是 $p=\lambda/M$ .

问题是您将泊松描述为二项式分布的极限情况并不完全正确。

在以下情况下，泊松是二项式的极限情况：

M \to \infty and M p \to λ .

$M \to \infty \quad \color{red}{\text{and} \quad Mp \to \lambda.}$ 第二部分很重要。如果

p

$p$ 保持不变，第一个条件意味着利率也将无限制地增加。

泊松分布假设事件是罕见的。我们所说的“罕见”并不是说事件发生率很小——事实上，泊松过程可能具有非常高的强度 $\lambda$ ——而是，事件发生在任何时刻的概率 $[t, t + dt)$ 非常小。这与二项式模型相反，其中概率 $p$ 对于任何给定的试验，事件（例如“成功”）是固定的。

为了说明，假设我们对一系列 $M$ 独立的伯努利试验，每个试验都有成功的概率 $p$ ，我们看看成功次数的分布会发生什么变化 $X$ 作为 $M \to \infty$ . 对于任何 $N$ 随心所欲，无论多小 $p$ 是，预期的成功次数 $\operatorname{E}[X] = Mp > N$ 为了 $M > N/p$ . 换句话说，无论成功的可能性有多大，如果你进行了足够多的试验，最终你可以获得尽可能多的平均成功次数。所以， $M \to \infty$ （或者，只是说“ $M$ 很大”) 不足以证明泊松模型的合理性 $X$ .

不难代数建立

Pr [X = x] = e^{- λ} \frac{λ^{x}}{x!}, x = 0, 1, 2, \dots

$\Pr[X = x] = e^{-\lambda} \frac{\lambda^x}{x!}, \quad x = 0, 1, 2, \ldots$ 作为极限情况

Pr [X = x] = (\binom{M}{x}) p^{x} (1 - p)^{M - x}, x = 0, 1, 2, \dots, M

$\Pr[X = x] = \binom{M}{x} p^x (1-p)^{M-x}, \quad x = 0, 1, 2, \ldots, M$ 通过设置

p = λ / M

$p = \lambda/M$ 并让

M \to \infty

$M \to \infty$ . 这里的其他答案已经解决了这种关系背后的直觉，并提供了计算指导。但重要的是

p = λ / M

$p = \lambda/M$ . 你不能忽视这一点。

我将尝试一个简单直观的解释。记录二项式随机变量 $X \sim \text{Bin}(n,p)$ 我们的期望是 $n p$ 和方差是 $n p (1-p)$ . 现在想想 $X$ 记录了非常多的事件数量 $n$ 试验，每个试验的概率都非常小 $p$ , 这样我们就非常接近 $1-p=1$ （真的 $\approx$ ）。然后我们有 $np=\lambda$ 说，和 $n p (1-p) \approx n p 1 =\lambda$ , 所以均值和方差都等于 $\lambda$ . 然后请记住，对于泊松分布的随机变量，我们总是使均值和方差相等！这至少是泊松近似的合理性论证，但不是证明。

那就换个角度看吧，泊松点过程https://en.wikipedia.org/wiki/Poisson_point_process 上的真线。如果随机点按照规则出现，这是我们得到的线上随机点的分布：

不相交区间中的点是独立的
在很短的区间内随机点的概率与区间的长度成正比
在很短的时间间隔内出现两个或多个点的概率基本上为零。

那么给定区间（不一定短）的点数分布是泊松（带参数 $\lambda$ 与长度成正比）。现在，如果我们将这个区间划分为非常多、同样非常短的子区间（ $n$ )，给定子区间中两个或多个点的概率基本上为零，因此该数字将具有非常好的近似值，即伯诺利分布，即 $\text{Bin}(1,p)$ ，所以所有这些的总和将是 $\text{Bin}(n,p)$ ，因此很好地近似了该（长）区间中点数的泊松分布。

来自@Ytsen de Boer (OP) 的编辑：@Łukasz Grad 满意地回答了第 2 个问题。

问题 1

回想一下二项分布的定义：

在给定次数的试验中，成功结果的可能数量的频率分布，其中每一次试验都有相同的成功概率。

将此与泊松分布的定义进行比较：

离散频率分布 , 给出在固定时间发生的一些独立事件的概率.

2之间的实质性区别是二项式在 $n$ 试验，泊松在一段时间内 $t$ . 极限如何直观地出现？

假设您必须永远进行伯努利试验。此外，你运行 $n = 30$ 每分钟。您每分钟计算一次成功。因此，对于所有永恒，您都在运行 $Bin(p,30)$ 每分钟处理一次。超过 24 小时，您有一个 $Bin(p,43200)$ .

当您感到疲倦时，系统会询问您“18:00 到 19:00 之间发生了多少次成功？”。你的答案可能是 $30*60*p$ ，即您提供一小时内的平均成功率。这听起来很像泊松参数 $\lambda$ 对我来说。

其它你可能感兴趣的问题

上一篇Softmax溢出下一篇我应该为我的 Poisson GLM 使用偏移量吗？