泊松分布对现实中事件分布的代表性有多大?

机器算法验证 泊松分布
2022-03-09 18:36:14

我一直想知道泊松分布与我们在现实中观察到的事件的“拟合”有多好。我几乎总是看到它被用于模拟事件的发生。(例如,汽车到达停车场或网络上的计算机主机发送/接收的数量或消息等)

我们通常通过泊松分布对此类事件进行建模。分布只是对现实情况的初步近似吗?如果我观察以上两个示例中的汽车/天或消息/天的数量以及通过“从分布中挑选”输出的那些,它们有多大区别?泊松的近似值有多好?(它是一个近似值吗?)泊松背后的“魔力”是什么,它只是让它正确(直观地说:)?

4个回答

我可以说的一个例子是消费品(CPG)的超市销售。这些也是计数事件 - 超市可能每天销售 0 个单位,或者 1 个,或者 2 个等等,所以泊松分布似乎是一个很好的第一次拟合。

但是,@PeterEllis 的基本二项式分布并不成立。是的,我们可以用二项式对客户数量进行建模……但有些客户会购买 1 个单位,有些会购买 2 个单位,有些会加载他们的食品室并购买 10 个单位。

结果通常会过度分散,因此负二项分布比泊松分布更适合。(有时,我们甚至可能会看到牛奶等快速移动的物品分散不足)。

如果被计算的事物彼此独立并且比率是恒定的(或遵循泊松回归中的模型),那么泊松分布通常会保持得很好。像汽车到达车库这样的例子往往工作得很好(在一段时间内速度相当稳定,包括高峰时间和深夜,9 到 5 名工人经常光顾的车库不能很好地工作)。你什么时候到达车库对我什么时候到达几乎没有影响。但是也有例外,如果 2 人安排在给定时间见面,那么他们可能会更接近地到达,如果一个人跟随另一个人,那么他们会更接近。此外,附近的交通信号灯之类的东西可能会导致到达时出现与泊松不匹配的团块。

如果要比较特定数据集以查看 Poisson 是否匹配,则可以使用悬挂根图

正如@Stephan 所说,直接泊松可能没有足够的方差来成为由风险函数控制的真实非负整数测量的良好模型。因此,通常使用负二项式,它有一个附加参数α>0确定过度分散。我发现参数化很有用β=ln(α)因为作为过度分散α接近 0,意味着负二项式接近泊松,负二项式变得难以计算。

另一种增加离散度的方法是零通货膨胀,它可以应用于泊松或负二项式。要使用它,在每个测量时间,首先进行伯努利试验(掷硬币)。如果硬币是“正面”,则度量为 0。否则,度量来自泊松或负二项分布。

我已经看到,如果事件证明是有规律的,那么泊松模型就会高估方差(合乎逻辑且显而易见),而如果事件证明是聚集的,那么泊松模型就会低估方差。泊松分布是从随机泊松点过程生成的。

我的旧教科书推荐 Cox, DR 和 Miller, HD (1965) Theory of stochastic processes pub。威利进一步阅读。在介绍性书籍中,为这样一个随机过程推导出了一阶微分方程,求解该方程以给出及时观察到没有事件的概率t,P(0,t)=eat在哪里a是事件发生率和t是时间,然后通过考虑P(1,t),P(2,t),等。一般泊松公式是通过检查推导出来的。C. Chatfield技术统计:应用统计课程,第 2 版。1978 年,酒吧。查普曼和霍尔:见第 70-75 页。

这两个例子违反了基本的随机性要求。如果事件或多或少是随机的,那么泊松模型就是一个公平模型。到达繁忙的市中心停车场的汽车可能是集群数据集的一个示例,可能是因为有 9 到 5 个用户?