使用比例解释二项式 glm 中的过度分散,没有准二项式

机器算法验证 广义线性模型 二项分布 自相关 过度分散 准二项式
2022-04-15 12:15:30

我正在使用相对丰度进行二项式 GLM,例如:model<-glm(cbind(number_pres,number_abs)~Var1+Var2+Var3+Var4..., family=binomial, data=Data)。我的样本量约为 700,我有大约 15 个解释变量。我不能使用泊松,因为每个样本点的“试验”总数各不相同(相对丰度说明了这一点),而且我不想简化为存在/不存在。

我的全局模型过度分散(残差/自由度 = 2.8),并且残差中有一些有趣的模式(见下文)。

使用 R 图(模型)的验证图

无论我添加交互、多项式、变换变量、删除影响点、删除 VIF ~4(集合中的最高 VIF)的变量,过度分散仍然存在。移除影响点和最高 VIF 似乎确实有助于处理残差模式,但不会过度分散。我可以使用family=quasibinomial,但当然许多变量不再重要,我发现这更难解释/理解。如果可能的话,我只想修复过度分散。

我怀疑可能导致问题的两件事是我的物种数据中的大量零,以及与空间自相关有关。我做了一些测试,残差的空间自相关可能是一个小问题(在“汽车”中,Durbinwatsontest 显示拒绝无自相关,但在“gstat”变异函数中,半方差徘徊在 2-2.5 左右)。我在 bernouilli glm 中使用存在/不存在重复了模型(bernouilli 不存在过度分散),没有残留模式,并且在使用零膨胀二项式 glm(包 glmmADMB)时得到类似的结果。我还没有找到具有比例的二项式 glm 的零膨胀模型,但这可能表明零也不是问题。

我应该只为我的模型和随后的嵌套模型集使用准二项式 glms 吗?还是有我缺少的解决方案?

1个回答

出现过度分散的原因有很多,但存在/不存在数据的情况通常是由于观察结果的聚类和观察结果之间的相关性。

取自 Brostrom 和 Holmberg (2011) 具有聚类数据的广义线性模型:使用 glmmML 的固定和随机效应模型

“一般来说,如果观察到的集群可以被视为来自(大的,可能是无限的)可能集群池中的随机样本,则随机效应模型是合适的。观察到的集群本身没有实际意义,但在池是。或者这种分布被视为需要控制的麻烦。

https://cran.r-project.org/web/packages/eha/vignettes/glmmML.pdf

library(lme4) 
library(RVAideMemoire)
Data$obs <- factor(formatC(1:nrow(Data), flag="0", width = 3))
model.glmm <- glmer(cbind(number_pres,number_abs) ~ Var1+Var2+Var3+Var4...+
(1|obs),family = binomial (link = logit),data = Data) 
overdisp.glmer(model.glmm) #Overdispersion for GLMM