何时在 R 的负二项式/泊松 GLM 中使用 offset()

机器算法验证 r 广义线性模型 造型 抵消
2022-04-04 16:30:23

我正在尝试使用负二项式或泊松回归(取决于分散程度)来检测许多物种的物种丰度(计数)和时间(年)之间的关系。所有集合的采样时间(分钟)都不相同,所以我的问题是:

1)确定何时使用负二项式与泊松的最佳方法是什么?

2) 这是在偏移项中包含采样时间的合适实例吗?在大多数情况下,采样时间为 10 分钟,但有时为 15 或 20 分钟。

任何建议或意见将不胜感激。

2个回答

1) 确定何时使用 neg 的最佳方法是什么?比诺姆。与泊松?

一种常见的方法(不一定是最好的——什么是“最好的”取决于你的最佳标准)来决定这将是查看泊松模型中是否存在过度分散(例如,通过查看剩余偏差。

例如,看summary(glm(count~spray,InsectSprays,family=poisson))- 这对于 66 df 有 98.33 的残余偏差。这比我们预期的要大 50%,所以它可能足够大,对你的推断很重要。

[如果你想要一个正式的测试pchisq(98.33,66,lower.tail=FALSE),但是假设的正式测试通常会回答错误的问题。]

所以我倾向于考虑这种情况下的负二项式。

更一般地说,如果您不能合理地确信泊松是有意义的,您可以简单地使用负二项式作为默认值,因为它包含泊松作为限制情况。

2) 这是在偏移项中包含采样时间的合适实例吗?

是的,这是合适的,我的第一直觉是将采样时间作为偏移量(而不是预测变量),因为预计计数将与采样间隔的长度成正比。

  1. 确定何时使用负二项式与泊松的最佳方法是什么?

答案:泊松 GLM 假设响应变量的均值和方差大致相等。如果不满足这个假设,就会发生过度分散;数据的方差自然大于均值。这种情况被称为“真正的过度分散”。真正的过度离散是通过对数据拟合模型来处理的,使得方差大于响应变量中的平均值。

然而,负二项式 GLM 并不假设响应变量的方差等于其均值,因此可用于对过度分散的数据进行建模,这是生态数据的共同属性。

要检查模型是否过度分散,我们deviance除以residual例如:

model1 <- glm(weight ~ height + age, data = df1, family = poisson(link = "log"))
ods <- model1$deviance/model1$df.residual
ods

如果 的值ods在 1 左右,则模型不会过度分散。如果ods大约为 2 或以上,则模型过度分散,并且模型输出的预测/假设可能存在问题。在这种情况下,可以使用负二项式,因为它不假设响应变量的方差等于其均值。

  1. 这是在偏移项中包含采样时间的合适实例吗?在大多数情况下,采样时间为 10 分钟,但有时为 15 或 20 分钟。

回答:是的,因为更多的抽样工作意味着更多的物种被计算在内。为了在模型中为每个采样工作提供平等的机会/权重,我们需要将其用作一个offset术语。相同的逻辑可以应用于具有可变调查努力以观察物种丰度(计数)的位置。