具有偏移的泊松随机效应模型中的过度分散和建模替代方案

机器算法验证 广义线性模型 负二项分布 咕噜咕噜 泊松回归 过度分散
2022-03-26 11:05:19

在使用主题内实验对实验研究中的计数数据进行建模时,我遇到了许多实际问题。我简要描述了实验、数据以及到目前为止我所做的事情,然后是我的问题。

依次向受访者样本展示了四部不同的电影。在每部电影之后进行一次采访,我们计算了对 RQ(预测计数变量)感兴趣的某些陈述的出现次数。我们还记录了可​​能出现的最大数量(编码单元;偏移变量)。此外,电影的几个特征是在连续尺度上测量的,其中一个我们有一个因果假设,即电影特征对语句计数的影响,而其他是控制(预测变量)。

目前采用的建模策略如下:

估计随机效应泊松模型,其中因果变量用作协变量,其他变量用作控制协变量。该模型的偏移量等于“log(units)”(编码单位)。随机效应是跨主题进行的(特定于电影的计数嵌套在主题中)。我们发现因果假设得到证实(sig. 因果变量系数)。估计我们在 R 中使用了 lme4 包,特别是函数 glmer。

现在我有以下问题。泊松回归中的一个常见问题是过度分散。我知道这可以通过使用负二项式回归并评估其分散参数是否改善简单泊松模型的模型拟合来测试。但是,我不知道如何在随机效果环境中这样做。

  • 在我的情况下,我应该如何测试过度分散?我在我知道如何拟合的简单泊松/负二项式回归(没有随机效应)中测试了过度分散。该测试表明存在过度分散。然而,由于这些模型没有考虑聚类,我认为这个测试是不正确的。此外,我不确定偏移量在过度分散测试中的作用。
  • 是否有类似负二项式随机效应回归模型的东西,我应该如何将它拟合到 R 中?
  • 您对我应该在数据上尝试的替代模型有建议吗,即考虑重复测量结构、计数变量和暴露(编码单位)?
1个回答

有一个最大可能的计数答案数量,与提出的问题数量有关。虽然可以将其建模为计数类型的泊松过程,但另一种解释是泊松过程对计数答案的数量没有理论限制,也就是说,它在[0,). 另一种分布,即具有有限支持的离散分布,例如beta 二项式可能更合适,因为它具有更易变的形状。但是,这只是一个猜测,在实践中,我会使用蛮力寻找更一般问题的答案......

而不是检查overdispersion,这不能保证得出有用的答案,而且,虽然可以检查分散指数来量化分散,但我会更有用地建议使用拟合质量搜索的离散分布选项搜索最佳分布程序,例如 Mathematica 的FindDistribution例程。这种类型的搜索做了相当详尽的工作,可以猜测哪些已知分布最有效,不仅可以减轻过度分散,而且可以更有效地模拟许多其他数据特征,例如,测量十几个的拟合优度不同的方法。

为了进一步检查我的候选分布,我会事后检查残差以检查同方差性和/或分布类型,并考虑候选分布是否可以与数据的物理解释相一致。此过程的危险在于识别与扩展数据集的最佳建模不一致的分布。不进行事后程序的危险是先验地分配一个没有适当测试的任意选择的分布(垃圾进垃圾出)。事后的优越性方法是它限制了拟合的误差,这也是它的弱点,即它可能通过纯粹的机会低估建模误差,因为尝试了许多分布拟合。这就是检查残差和考虑物理性的原因。自上而下先验方法不提供这种对合理性的事后检查。也就是说,将建模的物理性与不同分布进行比较的唯一方法是事后比较它们。因此产生了物理理论的性质,我们在接受它们作为穷尽的替代解释之前,通过许多实验来测试对数据的假设解释。