我正在开发 GLMM 以评估栖息地选择(使用 GLMM 的系数来构建资源选择函数)。我有来自 5 个研究区域的(遥测)数据,每个区域都有不同数量的受监控个体。
为了开发 GLMM,因变量是二元的(1-使用位置;0-可用位置),我有一组初始的 14 个连续变量(8 个土地覆盖变量;2 个距离变量,到人工区域和水源;4 个地形变量):在每个位置周围放置一个缓冲区,并计算该缓冲区内每个土地覆盖的面积;测量从每个点到最近要素的距离,并使用 DEM 栅格获得地形变量。我使用 Spearman's Rank 测试了相关性,因此并非所有 14 个都用于 GLMM。所有变量均使用 z 分数进行转换。
作为随机效应,我使用了个人 ID(在另一个问题中(“GLMM:AIC、R 平方和过度分散之间的关系?”),很明显,使用研究区域作为随机效应既无用也不正确)。
我构建了一个具有 9 个变量(不相关)和随机效应的 GLMM,然后使用“dredge()”函数和“model.avg(dredge)”按 AIC 值对模型进行排序。这是结果(仅代表 AICc 低于 2 的模型):
[1]Call:
model.avg(object = dredge.m1.1)
Component model call:
glmer(formula = Used ~ <512 unique rhs>, data = All_SA_Used_RP_Area_z, family =
binomial(link = "logit"))
Component models:
df logLik AICc delta weight
123578 8 -4309.94 8635.89 0.00 0.14
1235789 9 -4309.22 8636.44 0.55 0.10
123789 8 -4310.52 8637.04 1.14 0.08
1235678 9 -4309.75 8637.50 1.61 0.06
12378 7 -4311.78 8637.57 1.67 0.06
1234578 9 -4309.79 8637.58 1.69 0.06
变量 1 和 2 代表距离变量;从 3 到 8 个土地覆盖变量,9 个是地形变量。权重似乎非常低,即使我对所有这些模型进行平均,因为当 delta 值较低时它似乎很常见。即使有了这个权重,我也为每个组合构建了 GLMM,并且所有 6 种组合的结果都是相似的。这是第一个的结果(GLMM + 过度分散 + r-squared):
Random effects:
Groups Name Variance Std.Dev.
ID.CODE_1 (Intercept) 13.02 3.608
Number of obs: 32670, groups: ID.CODE_1, 55
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.54891 0.51174 -1.073 0.283433
3 -0.22232 0.04059 -5.478 4.31e-08 ***
5 -0.05433 0.02837 -1.915 0.055460 .
7 -0.13108 0.02825 -4.640 3.49e-06 ***
8 -0.15864 0.08670 -1.830 0.067287 .
1 0.28438 0.02853 9.968 < 2e-16 ***
2 0.11531 0.03021 3.817 0.000135 ***
Residual deviance: 0.256
r.squaredGLMM():
R2m R2c
0.01063077 0.80039950
这是我从这个分析中得到的:
1) 随机效应的方差和 SD 看起来不错(绝对比我使用 Study Areas 作为随机效应时得到的“0”要好);
2) 根据我对物种的了解和对研究区域的了解,估算值是有意义的;
3) 过度离散值看起来不错,而 R 平方值似乎不是很好(至少在仅考虑固定效应时),但是,正如我在几个地方看到的那样,AIC 和 r 平方并不总是一致的。
4) 权重值似乎很低。这是否意味着模型不好?
然后我做的是构造一个 GLM(“glm()”),所以没有使用随机效应。我使用了 [1] 中使用的相同变量集,结果如下(仅代表 AICc 低于 2 的模型):
[2] Call:
model.avg(object = dredge.glm_m1.1)
Component model call:
glm(formula = Used ~ <512 unique rhs>, family = binomial(link = "logit"), data =
All_SA_Used_RP_Area_z)
Component models:
df logLik AICc delta weight
12345678 9 -9251.85 18521.70 0.00 0.52
123456789 10 -9251.77 18523.54 1.84 0.21
1345678 8 -9253.84 18523.69 1.99 0.19
在这种情况下,权重值更高。
这是否意味着最好不要使用随机效应?(我不确定我是否可以将 GLMM 与 GLM 结果进行比较,如果我做错了假设,请纠正我)