我对 GLMM 的规范和解释有一些疑问。3 个问题绝对是统计问题,2 个问题更具体是关于 R。我在这里发帖是因为最终我认为问题是对 GLMM 结果的解释。
我目前正在尝试安装 GLMM。我正在使用来自Longitudinal Tract Database的美国人口普查数据。我的观察是人口普查区。我的因变量是空置住房单元的数量,我对空置率和社会经济变量之间的关系感兴趣。这里的例子很简单,只使用了两个固定效应:非白人人口百分比(种族)和家庭收入中位数(阶级),加上它们的交互作用。我想包括两个嵌套的随机效应:几十年和几十年内的大片,即(十年/大片)。我正在考虑这些随机性以控制空间(即区域之间)和时间(即几十年之间)自相关。但是,我也对作为固定效应的十年感兴趣,所以我也将它作为固定因素包括在内。
由于我的自变量是一个非负整数计数变量,我一直在尝试拟合泊松和负二项式 GLMM。我使用总住房单位的对数作为偏移量。这意味着系数被解释为对空置率的影响,而不是空置房屋的总数。
我目前使用 lme4 中的 glmer 和 glmer.nb 估计了泊松和负二项式 GLMM 的结果。基于我对数据和研究领域的了解,系数的解释对我来说是有意义的。
如果你想要他们在我的Github上的数据和脚本。该脚本包括我在构建模型之前所做的更多描述性调查。
这是我的结果:
泊松模型
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: poisson ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34520.1 34580.6 -17250.1 34500.1 3132
Scaled residuals:
Min 1Q Median 3Q Max
-2.24211 -0.10799 -0.00722 0.06898 0.68129
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 0.4635 0.6808
decade (Intercept) 0.0000 0.0000
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612242 0.028904 -124.98 < 2e-16 ***
decade1980 0.302868 0.040351 7.51 6.1e-14 ***
decade1990 1.088176 0.039931 27.25 < 2e-16 ***
decade2000 1.036382 0.039846 26.01 < 2e-16 ***
decade2010 1.345184 0.039485 34.07 < 2e-16 ***
P_NONWHT 0.175207 0.012982 13.50 < 2e-16 ***
a_hinc -0.235266 0.013291 -17.70 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009876 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.727 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.714 0.511 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.155 0.035 -0.134 -0.129 0.003 0.155 -0.233
convergence code: 0
Model failed to converge with max|grad| = 0.00181132 (tol = 0.001, component 1)
负二项式模型
Generalized linear mixed model fit by maximum likelihood (Laplace Approximation) ['glmerMod']
Family: Negative Binomial(25181.5) ( log )
Formula: R_VAC ~ decade + P_NONWHT + a_hinc + P_NONWHT * a_hinc + offset(HU_ln) + (1 | decade/TRTID10)
Data: scaled.mydata
AIC BIC logLik deviance df.resid
34522.1 34588.7 -17250.1 34500.1 3131
Scaled residuals:
Min 1Q Median 3Q Max
-2.24213 -0.10816 -0.00724 0.06928 0.68145
Random effects:
Groups Name Variance Std.Dev.
TRTID10:decade (Intercept) 4.635e-01 6.808e-01
decade (Intercept) 1.532e-11 3.914e-06
Number of obs: 3142, groups: TRTID10:decade, 3142; decade, 5
Fixed effects:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -3.612279 0.028946 -124.79 < 2e-16 ***
decade1980 0.302897 0.040392 7.50 6.43e-14 ***
decade1990 1.088211 0.039963 27.23 < 2e-16 ***
decade2000 1.036437 0.039884 25.99 < 2e-16 ***
decade2010 1.345227 0.039518 34.04 < 2e-16 ***
P_NONWHT 0.175216 0.012985 13.49 < 2e-16 ***
a_hinc -0.235274 0.013298 -17.69 < 2e-16 ***
P_NONWHT:a_hinc 0.093417 0.009879 9.46 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Correlation of Fixed Effects:
(Intr) dc1980 dc1990 dc2000 dc2010 P_NONWHT a_hinc
decade1980 -0.693
decade1990 -0.728 0.501
decade2000 -0.728 0.502 0.530
decade2010 -0.715 0.512 0.517 0.518
P_NONWHT 0.016 0.007 -0.016 -0.015 0.006
a_hinc -0.023 -0.011 0.023 0.022 -0.009 0.221
P_NONWHT:_h 0.154 0.035 -0.134 -0.129 0.003 0.155 -0.233
泊松 DHARMa 检验
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.044451, p-value = 8.104e-06
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput
ratioObsExp = 1.3666, p-value = 0.159
alternative hypothesis: more
负二项式 DHARMa 检验
One-sample Kolmogorov-Smirnov test
data: simulationOutput$scaledResiduals
D = 0.04263, p-value = 2.195e-05
alternative hypothesis: two-sided
DHARMa zero-inflation test via comparison to expected zeros with simulation under H0 = fitted model
data: simulationOutput2
ratioObsExp = 1.376, p-value = 0.174
alternative hypothesis: more
DHARMa 地块
泊松
负二项式
统计问题
由于我仍在研究 GLMM,我对规范和解释感到不安全。我有一些疑问:
看来我的数据不支持使用泊松模型,因此我最好使用负二项式。但是,我一直收到警告说我的负二项式模型达到了它们的迭代限制,即使我增加了最大限制。“在 theta.ml(Y, mu, weights = object@resp$weights, limit = limit, : 达到迭代限制。” 使用相当多的不同规范(即固定和随机效应的最小和最大模型)会发生这种情况。我也尝试过删除我的依赖项中的异常值(我知道,总额!),因为前 1% 的值非常异常(底部 99% 的范围从 0-1012,顶部的 1% 从 1013-5213)。那没有对迭代没有任何影响,对系数也几乎没有影响。我在这里不包括这些细节。泊松和负二项式之间的系数也非常相似。这种缺乏收敛性是一个问题吗?负二项式模型是否合适?我还使用了运行负二项式模型AllFit并不是所有的优化器都会抛出这个警告(bobyqa、Nelder Mead 和 nlminbw 没有)。
我的十年固定效应的方差始终非常低或为 0。我理解这可能意味着模型过度拟合。从固定效应中取出十年确实会将十年随机效应方差增加到 0.2620,并且对固定效应系数没有太大影响。把它留在里面有什么问题吗?我很好地将其解释为根本不需要在观察方差之间进行解释。
这些结果是否表明我应该尝试零膨胀模型?DHARMa 似乎暗示零通胀可能不是问题。如果您认为我还是应该尝试,请参见下文。
问题
我愿意尝试零膨胀模型,但我不确定哪个包对零膨胀泊松和负二项式 GLMM 实施嵌套随机效应。我会使用 glmmADMB 将 AIC 与零膨胀模型进行比较,但它仅限于单个随机效应,因此不适用于该模型。我可以尝试 MCMCglmm,但我不知道贝叶斯统计,所以这也没有吸引力。还有其他选择吗?
我可以在摘要(模型)中显示指数系数,还是必须像我在这里所做的那样在摘要之外进行?