为什么要拟合/使用泊松回归而不是负二项式?

机器算法验证 回归 分布 负二项分布 泊松回归
2022-04-04 09:02:15

鉴于泊松是负二项式的一个特例,它似乎只是在过度分散的情况下更容易出错,而没有提供任何真正的好处,你为什么要在负二项式上拟合泊松回归?拟合我在这里缺少的负二项式是否有一些缺点?我想它需要你估计一个额外的参数,但是这在功能上什么时候很重要?很抱歉这个问题有点开放式,但我很困惑为什么 NB 不只是默认推荐。

2个回答

泊松分布对其单个参数有一个非常简单的启发式:罕见事件的发生率,事件独立发生。

将其与负二项分布的维基百科公式进行对比

在概率论和统计学中,负二项分布是一种离散概率分布,它模拟了在指定(非随机)成功次数(表示为r) 发生。

大多数科学家都非常熟悉在有限数量的成功之前涉及许多失败的情况。然而,很难解释(至少对我而言)一组观察结果导致它们遵循负二项分布的情况。尽管有时会出现一组独立事件违反直觉的现象,但用物理术语解释泊松的速率要容易得多

因此,本着“所有模型都是错误的,但有些是有用的”的精神,人们可能更愿意从泊松开始,只有在泊松显然不合适时才转向负二项式。

对于许多实际应用,负二项分布更合适,通常是合理的默认选择。每当我们假设风险因观察单位(例如患者、医院……)而异时,情况就是如此。泊松分布可能是合适的,例如当非常清楚单元是真正相同的(例如相同的原子)并且应该具有相同的事件率时。

很容易解释为每个单元都具有泊松分布,平均速率根据 Gamma 分布在单元之间变化。

非常合理的替代方案包括泊松,其中平均率的对数根据正态分布在单位之间变化(即泊松广义混合效应模型,对数平均率具有正态分布的随机效应)。这确实可以很好地近似负二项式分布 - 对于合适的参数,对数正态非常接近 gamma,老实说,我们通常不知道事件率在单位之间遵循什么分布。