用于比例数据和欠分散的 GLM

机器算法验证 广义线性模型 分散不足
2022-04-10 22:58:03

我想请你帮忙从我的数据集中理解一个统计问题。我使用二项分布运行具有比例数据的 GLM。但是,我发现我的模型中分散不足,我不知道如何处理。我知道过度分散的解决方案是使用拟二项分布拟合模型,但我在文献中找不到解决我的问题的方法。

我正在比较连续森林地点和碎片之间关于专业物种丰富度和丰度的差异。所以,模型是:

M1 <- glm(prop_rich_speci ~ LandscapeBin, 
          family = binomial, 
          weights=rich_total_sp, 
          data = envir.all)
M2 <- glm(prop_abu_speci ~ LandscapeBin,  
          family = binomial, 
          weights=abu_total_sp, 
          data = envir.all)

正如 Ben 所建议的,我认为使用拟二项式分布可以解决我的问题(欠分散)。

1个回答

我的回答来自http://article.gmane.org/gmane.comp.lang.r.general/316863

简短回答:准似然估计(即family=quasibinomial)应该很好地解决欠分散和过度分散

如果你只是想假设variance=ϕNp(1p)ϕ<1,准似然估计可以正常工作。根据您的欠分散的来源,您对建模细节的关注程度,数据的其他方面,您可能想要研究序数或COM-Poisson模型(这两种方法都有专门用于它们的 R 包)。

与过度分散相比,对分散不足的担忧通常较少;我推测有两个原因

  • 过度分散可能是更常见的问题
  • 欠分散导致统计推断中的保守主义(例如,降低功效,降低 I 类错误),而过度分散导致乐观(夸大的 I 类错误率等),因此审阅者等往往不太担心它