我有来自实地调查的数据。研究的目的是将幼苗数量(响应变量,计数数据)、地形(探索变量、3 个级别的分类变量)和冠层覆盖百分比(探索变量,定量)联系起来。在每个栖息地,我都有来自五个 25x25 米地块的数据。在每个地块中,我使用了三个嵌套在较大地块中的 2x2 米子地块,并从这些子地块中计算幼苗的数量。观察总数为 60;20 个地块 x 3 个子地块。只有一种地貌含有幼苗。其他两个地貌没有幼苗,所以它们是空地。数据如下所示:
data.frame': 60 obs. of 5 variables:
$ plot : Factor w/ 20 levels "HD2","LC1","LC2",..: 16 16 16 17 17 17 12 12 12 9 ...
$ subplot : Factor w/ 60 levels "HD2.1","HD2.2",..: 46 47 48 49 50 51 34 35 36 25 ...
$ av.canopy : num 92.2 92.2 92.2 92.3 92.3 ...
$ landform : Factor w/ 3 levels "abandoned","ridge",..: 2 2 2 2 2 2 2 2 2 2 ...
$ seedling.2016: int 6 7 5 2 5 4 4 6 4 0 ...
问题是当我使用以下代码比较地形之间的幼苗数量时:
seedling <- glmer(seedling.2016 ~ landform +(1|plot), family = poisson)
结果对我来说没有意义 - 地貌事件之间没有任何显着差异,只有一个地貌(山脊)有幼苗,而其他地貌(山脊)根本没有幼苗。还要注意的是,SE 是巨大的。结果如下所示:
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: poisson ( log )
Formula: seedling.2016 ~ landform + (1 | plot)
Data: streblus.subplots
AIC BIC logLik deviance df.resid
294.9 303.3 -143.5 286.9 56
Scaled residuals:
Min 1Q Median 3Q Max
-6.3619 -0.0001 -0.0001 0.0000 8.7305
Random effects:
Groups Name Variance Std.Dev.
plot (Intercept) 2.637 1.624
Number of obs: 60, groups: plot, 20
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -20.412 1461.267 -0.014 0.989
landformridge 22.250 1461.265 0.015 0.988
landformtemp 1.066 390.540 0.003 0.998
当我将链接函数更改为平方根时,如下代码:
Seedling2 <- glmer(seedling.2016 ~ landform + (1|plot), family = poisson(link = sqrt))
Fixed effects:
#Estimate Std. Error z value Pr(>|z|)
#(Intercept) -1.220e-05 5.296e-01 0.000 1
#landformridge 3.250e+00 7.429e-01 4.376 1.21e-05 ***
# landformtemp 1.018e-05 7.795e-01 0.000 1
现在脊中的幼苗数量明显高于另一个,这对我来说更有意义。
我的问题是:就统计而言,将平方根链接与泊松分布结合使用是否有效,有没有更好的方法可以提供更好的统计基础?