将二项式 GLMM (glmer) 拟合到作为比例或分数的响应变量

机器算法验证 r 二项分布 部分 咕噜咕噜 lme4-nlme
2022-02-07 01:58:13

我希望有人可以帮助解决我认为相对简单的问题,我想我知道答案,但没有确认它已成为我无法确定的事情。

我有一些计数数据作为响应变量,我想测量该变量如何随某物的比例存在而变化。

更详细地说,响应变量是在多个站点中存在的昆虫物种的计数,例如,一个站点被采样 10 次,该物种可能出现 4 次。

我想看看这是否与这些地点的整个植物群落中一组植物物种的比例存在相关。

这意味着我的数据如下所示(这只是一个示例)

Site, insectCount, NumberOfInsectSamples, ProportionalPlantGroupPresence
1, 5, 10, 0.5
2, 3, 10, 0.3
3, 7, 9, 0.6
4, 0, 9, 0.1

数据还包括位置的随机效应。

我想到了两种方法,一种是线性模型(lmer),将昆虫转换为比例,例如

 lmer.model<-lmer(insectCount/NumberOfInsectSamples~
 ProportionalPlantGroupPresence+(1|Location),data=Data)

第二个是二项式 GLMM ( glmer) 例如

glmer.model <- glmer(cbind(insectCount,NumberOfInsectSamples-insectCount)~
 ProportionalPlantGroupPresence+(1|Location),
 data=Data,family="binomial")

我相信二项式 glmer 是正确的方法,但是它们会产生相当不同的结果。我似乎无法在网上找到明确的答案,但仍然感到有点不确定,并希望确保我没有犯错。

任何帮助或对此替代方法的见解将不胜感激。

1个回答

二项式 GLMM 可能是正确的答案。

  • 特别是对于少量到中等数量的样本(在您的示例中为 9 和 10),响应变量的分布可能是异方差的(方差不会是恒定的,特别是取决于系统方式的平均值)并且远从正态性,以一种难以转换的方式 - 特别是如果预测变量的某些值的比例接近 0 或 1。这使 GLMM 成为一个好主意。
  • 你应该小心检查/解释过度分散。如果您在每个位置有一个观察值(即数据框中的单个二项式样本/行),那么您的(1|Site)随机效应将自动处理此问题(尽管请参阅 Harrison 2015 的警告说明)
  • 如果前面的假设是正确的(每个位置只有一个二项式样本),那么您也可以将其拟合为常规二项式模型(glm(...,family=binomial)--在这种情况下,您还可以使用准二项式模型(family=quasibinomial)作为更简单的替代方法解释过度分散
  • 如果您愿意,也可以将比例作为响应拟合您的 GLMM,如果您将weights参数设置为等于样本数:

     glmer(insectCount/NumberOfInsectSamples~ProportionalPlantGroupPresence+
           (1|Location),
           weights=NumberofInsectSamples,
           data=Data,family="binomial")
    

    (这应该给出与glmer()您在问题中的拟合相同的结果)。

Harrison, Xavier A. “观察级随机效应和 Beta-Binomial 模型的比较,用于模拟生态学和进化中二项式数据中的过度分散。” PeerJ 3(2015 年 7 月 21 日):e1114。doi:10.7717/peerj.1114。