在 DS Sivia 的“数据分析”中,从二项分布推导出泊松分布。
他们认为泊松分布是二项分布的极限情况,当, 在哪里是试验次数。
问题 1:如何直观地理解该论点?
问题2:为什么大-限制等于, 在哪里是成功的次数试验?(此步骤用于推导。)
在 DS Sivia 的“数据分析”中,从二项分布推导出泊松分布。
他们认为泊松分布是二项分布的极限情况,当, 在哪里是试验次数。
问题 1:如何直观地理解该论点?
问题2:为什么大-限制等于, 在哪里是成功的次数试验?(此步骤用于推导。)
让我提供一个替代的启发式。我将展示如何将泊松过程近似为二项式(并认为该近似对于许多低概率试验更好)。因此二项式分布必须趋于泊松分布。
假设事件以恒定的时间速率发生。我们想知道一天发生了多少事件的分布,知道预期的事件数是.
那么,每小时的预期事件数是. 假设这意味着在给定小时内发生事件的概率是. [这不太正确,但如果基本上,如果我们可以假设多个事件不会在同一小时内发生]。然后我们可以将事件数量的分布近似为二项式试验,每个试验都有成功的概率.
我们通过将间隔切换为分钟来改进近似值。然后就是和试验。如果大约是 10 点,那么我们可以非常确信没有一分钟有两个事件。
当然,如果我们切换到秒会更好。现在我们正在看小概率事件.
不管你有多大是,我最终可以选择一个足够小的这样很可能没有两个事件在同一时间间隔内发生。那么对应的二项分布将与真正的泊松分布完美匹配。
它们不完全相同的唯一原因是两个事件在同一时间间隔内发生的概率非零。但鉴于只有周围事件,它们被分配到一些数量远大于,它们中的任何两个都不太可能位于同一个 bin 中。
或者换句话说,二项分布倾向于泊松分布如果成功概率是.
问题是您将泊松描述为二项式分布的极限情况并不完全正确。
在以下情况下,泊松是二项式的极限情况:
泊松分布假设事件是罕见的。我们所说的“罕见”并不是说事件发生率很小——事实上,泊松过程可能具有非常高的强度——而是,事件发生在任何时刻的概率非常小。这与二项式模型相反,其中概率对于任何给定的试验,事件(例如“成功”)是固定的。
为了说明,假设我们对一系列独立的伯努利试验,每个试验都有成功的概率,我们看看成功次数的分布会发生什么变化作为. 对于任何随心所欲,无论多小是,预期的成功次数为了. 换句话说,无论成功的可能性有多大,如果你进行了足够多的试验,最终你可以获得尽可能多的平均成功次数。所以,(或者,只是说“很大”) 不足以证明泊松模型的合理性.
不难代数建立
我将尝试一个简单直观的解释。记录二项式随机变量我们的期望是和方差是. 现在想想记录了非常多的事件数量试验,每个试验的概率都非常小, 这样我们就非常接近(真的)。然后我们有说,和, 所以均值和方差都等于. 然后请记住,对于泊松分布的随机变量,我们总是使均值和方差相等!这至少是泊松近似的合理性论证,但不是证明。
那就换个角度看吧,泊松点过程https://en.wikipedia.org/wiki/Poisson_point_process 上的真线。如果随机点按照规则出现,这是我们得到的线上随机点的分布:
那么给定区间(不一定短)的点数分布是泊松(带参数与长度成正比)。现在,如果我们将这个区间划分为非常多、同样非常短的子区间(),给定子区间中两个或多个点的概率基本上为零,因此该数字将具有非常好的近似值,即伯诺利分布,即,所以所有这些的总和将是,因此很好地近似了该(长)区间中点数的泊松分布。
来自@Ytsen de Boer (OP) 的编辑:@Łukasz Grad 满意地回答了第 2 个问题。
回想一下二项分布的定义:
在给定次数的试验中,成功结果的可能数量的频率分布,其中每一次试验都有相同的成功概率。
将此与泊松分布的定义进行比较:
离散 频率 分布 , 给出 在 固定时间发生 的 一些 独立 事件 的 概率.
2之间的实质性区别是二项式在试验,泊松在一段时间内. 极限如何直观地出现?
假设您必须永远进行伯努利试验。此外,你运行每分钟。您每分钟计算一次成功。因此,对于所有永恒,您都在运行每分钟处理一次。超过 24 小时,您有一个.
当您感到疲倦时,系统会询问您“18:00 到 19:00 之间发生了多少次成功?”。你的答案可能是,即您提供一小时内的平均成功率。这听起来很像泊松参数对我来说。