在 DS Sivia 的“数据分析”中,从二项分布推导出泊松分布。
时,泊松分布是二项分布的极限情况,其中是试验次数。
问题 1:如何直观地理解该论点?
问题 2:为什么限制等于,其中是中的成功次数试验?(此步骤用于推导。)
在 DS Sivia 的“数据分析”中,从二项分布推导出泊松分布。
时,泊松分布是二项分布的极限情况,其中是试验次数。
问题 1:如何直观地理解该论点?
问题 2:为什么限制等于,其中是中的成功次数试验?(此步骤用于推导。)
让我提供一个替代的启发式。我将展示如何将泊松过程近似为二项式(并认为该近似对于许多低概率试验更好)。因此二项式分布必须趋于泊松分布。
假设事件以恒定的时间速率发生。我们想知道一天中发生了多少事件的分布,知道预期的事件数是。
好吧,每小时的预期事件数是。让我们假设这意味着在给定小时内发生事件的概率是。[它不太正确,但如果我们可以假设多个事件不会在同一小时内发生,然后我们可以将事件数量的分布近似为具有次试验的二项式,每个试验的成功概率为。
我们通过将间隔切换为分钟来改进近似值。然后是和试验。如果在附近,比如 10,那么我们可以非常确信没有一分钟有两个事件。
当然,如果我们切换到秒会更好。现在我们正在查看个事件,每个事件的概率为。
不管你的有多大,我最终都可以选择一个足够小的,这样很可能不会有两个事件发生在同一时间间隔内。那么对应的二项分布将与真正的泊松分布完美匹配。
它们不完全相同的唯一原因是两个事件在同一时间间隔内发生的概率非零。但鉴于只有周围事件,它们被分配到一些数量远大于,它们中的任何两个都不太可能位于同一个 bin 中。
或者换句话说,二项分布倾向于泊松分布如果成功概率是。
问题是您将泊松描述为二项式分布的极限情况并不完全正确。
泊松是二项式的极限情况: 第二部分很重要。如果保持不变,第一个条件意味着该速率也将无限制地增加。
泊松分布假设事件是罕见的。我们所说的“罕见”并不是说事件发生的概率很小——事实上,泊松过程可能具有非常高的强度而是事件发生在任何时刻的概率非常小。这与二项式模型形成对比,其中事件的概率(例如“成功”)对于任何给定的试验都是固定的。
为了说明,假设我们对一系列独立伯努利试验进行建模,每个试验都具有成功概率,并且我们看看成功次数的分布会发生什么变化作为。对于任意,无论有多小,预期的成功次数 for。换句话说,无论成功的可能性有多大,如果你进行了足够多的试验,最终你可以获得尽可能多的平均成功次数。所以,(或者,只是说“很大") 不足以证明的泊松模型是正确的。
不难代数建立作为极限\Pr [通过设置并让。这里的其他答案已经解决了这种关系背后的直觉,并提供了计算指导。但重要的是。你不能忽视这一点。
我将尝试一个简单直观的解释。记录对于二项式随机变量我们的期望是和方差是。现在认为记录了非常多次试验中的事件数量,每次试验的概率非常小,因此我们非常接近(实际上是)。然后我们有说,并且,所以均值和方差都等于. 然后请记住,对于泊松分布的随机变量,我们总是使均值和方差相等!这至少是泊松近似的合理性论证,但不是证明。
那就换个角度看吧,泊松点过程https://en.wikipedia.org/wiki/Poisson_point_process 上的真线。如果随机点按照规则出现,这是我们得到的线上随机点的分布:
那么给定区间(不一定短)中点数的分布是泊松(参数与长度成正比)。现在,如果我们将此区间划分为非常多、同样非常短的子区间 ( ),则给定子区间中两个或多个点的概率基本上为零,因此该数字将具有非常好的近似值,伯诺利分布,也就是说,,所以所有这些的总和将是,所以很好的近似点数的泊松分布(长)间隔。
来自@Ytsen de Boer (OP) 的编辑:@Łukasz Grad 满意地回答了第 2 个问题。
回想一下二项分布的定义:
在给定次数的试验中,成功结果的可能数量的频率分布,其中每一次试验都有相同的成功概率。
将此与泊松分布的定义进行比较:
离散 频率 分布 , 给出 在 固定时间发生 的 一些 独立 事件 的 概率.
两者之间的显着差异是二项式在次试验中,泊松在时间段内。极限如何直观地出现?
假设您必须永远进行伯努利试验。此外,您每分钟您每分钟计算一次成功。因此,永远你每分钟在 24 小时内,您有一个。
当您感到疲倦时,系统会询问您“18:00 到 19:00 之间发生了多少次成功?”。您的答案可能是,即您提供一小时内的平均成功率。对我来说,这听起来很像泊松参数。