如何处理泊松回归中的过度离散:准似然、负二项式 GLM 或主题级随机效应?

机器算法验证 回归 负二项分布 泊松回归 过度分散 准可能性
2022-02-02 21:26:43

我遇到了三个处理泊松响应变量和所有固定效应起始模型中的过度分散的建议:

  1. 使用准模型;
  2. 使用负二项式 GLM;
  3. 使用具有主题级别随机效应的混合模型。

但实际选择哪个,为什么?其中有什么实际的标准吗?

1个回答

泊松回归只是一个 GLM:

人们经常谈到应用泊松回归的参数原理。事实上,泊松回归只是一个 GLM。这意味着当满足两个假设时,泊松回归适用于任何类型的数据(计数、评级、考试分数、二元事件等):1)平均结果的对是预测变量的线性组合,2)结果方差等于均值这两个条件分别称为均值模型和均值方差关系。

通过对预测变量使用一组复杂的调整,可以稍微放宽平均模型假设。这很好,因为链接函数会影响参数的解释;解释的微妙之处在于回答科学问题和完全避开统计分析的消费者之间的区别。在另一篇SE 帖子中,我讨论了对数变换对解释的有用性。

然而,事实证明,第二个假设(均值-方差关系)对推理有很强的影响。当均值-方差关系不正确时,参数估计没有偏差但是,标准误、置信区间、p 值和预测都是错误校准的。这意味着您无法控制 I 类错误,并且您可能拥有次优能力。

如果可以放宽均值方差以使方差仅与均值成正比怎么办?负二项式回归和 Quasipoisson 回归就是这样做的。

准泊松模型

Quasipoisson 模型不是基于可能性的。他们将“拟似然”最大化,这是泊松似然达到比例常数。该比例常数恰好是色散。分散被认为是令人讨厌的范围。虽然最大化例程提出了对令人讨厌的参数的估计,但该估计仅仅是数据的产物,而不是任何可以推广到总体的值。根据方差是否按比例小于或大于平均值,离散度仅用于“缩小”或“扩大”回归参数的 SE。由于色散被视为令人讨厌的参数,准泊松模型具有许多稳健的特性:数据实际上可以是异方差的(不满足比例均值方差假设),甚至表现出小的依赖性来源,而均值模型不需要完全正确,但回归参数的 95% CI 是渐近正确的。如果您的数据分析目标是衡量一组回归参数与结果之间的关联,那么准泊松模型通常是可行的方法。这些模型的一个限制是它们无法产生预测区间,Pearson 残差无法告诉您平均模型的准确程度,并且 AIC 或 BIC 等信息标准无法有效地将这些模型与其他类型的模型进行比较。

负二项式模型

将负二项式回归理解为 2 参数泊松回归是最有用的。均值模型与 Poisson 和 Quasipoisson 模型相同,其中结果的对数是预测变量的线性组合。此外,“尺度”参数模拟了一种均值-方差关系,其中方差仅与之前的均值成比例。然而,与准泊松模型不同,这种类型的模型是基于精确似然的过程. 在这种情况下,离散度是一个实际参数,对总体具有一定程度的普遍性。与准泊松相比,这引入了一些优势,但在我看来,它强加了更多(不可测试的)假设。与拟泊松模型不同:数据必须独立,均值模型必须正确,尺度参数必须在拟合值范围内同方差才能获得正确的推断。然而,这些可以通过检查 Pearson 残差来进行评估,并且该模型产生可行的预测和预测区间,并且可以与信息标准进行比较。

负二项式概率模型来自 Poisson-Gamma 混合。也就是说,有一个未知的波动 Gamma 随机变量“馈入”泊松率参数。由于 NB GLM 拟合是基于可能性的,因此通常有助于说明关于数据生成机制的先验信念并将它们与手头模型的概率原理联系起来。例如,如果我正在测试退出 24 小时耐力赛的赛车手的数量,我可能会认为环境条件都是我没有测量的压力源,因此会增加 DNF 的风险,例如影响轮胎的湿气或低温牵引力,因此存在旋转和失事的风险。

依赖数据的模型:GLMM 与 GEE

泊松数据的广义线性混合模型 (GLMM) 无法与上述方法进行比较。GLMM 回答不同的问题并用于不同的数据结构。在这里,数据之间的依赖来源被明确测量。GLMMs 利用随机截距和随机斜率来解释个体水平的异质性。这改变了我们的估计。随机效应会修改模型的均值和方差,而不仅仅是上面讨论的方差。

有两种可能的关联水平可以在相关数据中测量:总体水平(边际)和个体水平(条件)。GLMM 声称测量个体水平(条件)关联:也就是说,给定结果的所有个体水平贡献者,预测变量组合的相对影响是什么。例如,备考课程可能对在模范学校上学的孩子影响不大,而市中心的孩子可能会受益匪浅。在这种情况下,个体水平效应明显更高,因为优势儿童在积极暴露方面远远高于曲线。

如果我们天真地将准泊松或负二项式模型应用于相关数据,NB 模型将是错误的,而准泊松模型将是低效的。然而,GEE 扩展了准泊松模型以显式地对依赖结构(如 GLMM)进行建模,但 GEE 测量边际(总体水平)趋势并获得正确的权重、标准误差和推理。

数据分析示例:

这篇文章已经太长了 :)本教程中的前两个模型有一个很好的说明,如果您有兴趣,还可以参考更多阅读。有问题的数据涉及鲎的筑巢习惯:雌性坐在巢中,雄性(卫星)依附在她身上。研究人员想要根据女性的特征来衡量依附于女性的男性数量。我希望我已经强调了为什么混合模型是不可比较的:如果你有依赖数据,你必须使用正确的模型来解决这些依赖数据试图回答的问题,无论是 GLM 还是 GEE。

参考:

[1] Agresti,分类数据分析第 2 版

[2] Diggle,Heagerty,Liang,Zeger,纵向数据分析,第 2 版。