如何解释 glmer 输出中的“固定效应的相关性”?

机器算法验证 混合模式 泊松分布 lme4-nlme
2022-01-31 18:51:17

我有以下输出:

Generalized linear mixed model fit by the Laplace approximation 
Formula: aph.remain ~ sMFS2 +sAG2 +sSHDI2 +sbare +season +crop +(1|landscape) 

 AIC   BIC    logLik deviance
 4062  4093  -2022   4044

Random effects:
Groups    Name        Variance Std.Dev.
landscape (Intercept) 0.82453  0.90804 
Number of obs: 239, groups: landscape, 45

Fixed effects:
            Estimate Std. Error z value Pr(>|z|)    
(Intercept)  2.65120    0.14051  18.868   <2e-16     
sMFS2        0.26922    0.17594   1.530   0.1260    
sAG2         0.09268    0.14529   0.638   0.5235    
sSHDI2       0.28345    0.17177   1.650   0.0989  
sbare        0.41388    0.02976  13.907   <2e-16 
seasonlate  -0.50165    0.02729 -18.384   <2e-16 
cropforage   0.79000    0.06724  11.748   <2e-16 
cropsoy      0.76507    0.04920  15.551   <2e-16 

Correlation of Fixed Effects:
           (Intr) sMFS2  sAG2   sSHDI2 sbare  sesnlt crpfrg
sMFS2      -0.016                                          
sAG2        0.006 -0.342                                   
sSHDI2     -0.025  0.588 -0.169                            
sbare      -0.113 -0.002  0.010  0.004                     
seasonlate -0.034  0.005 -0.004  0.001 -0.283              
cropforage -0.161 -0.005  0.012 -0.004  0.791 -0.231       
cropsoy    -0.175 -0.022  0.013  0.013  0.404 -0.164  0.557

我所有的连续变量(s在变量名前用小号表示)都是标准化的(z 分数)。season是具有 2 个水平(早期和晚期)crop的分类变量,是具有 3 个水平(玉米、草料和大豆)的分类变量。

固定效应矩阵的这种相关性真的让我感到困惑,因为当我查看变量对的简单回归时,所有相关性都具有相反的符号。cropforage即,固定效应矩阵的相关性表明和之间存在很强的正相关性,而sbare实际上这些变量之间存在非常强的负相关性——与玉米和大豆作物相比,牧草作物的裸地往往要少得多。成对的连续变量有同样的问题,固定效应矩阵的相关性表明一切都与它应该的相反......这可能只是由于模型的复杂性(不是简单的回归)吗?这可能与变量标准化的事实有关吗?

谢谢。

3个回答

“固定效应的相关性”输出没有大多数人认为的直观含义。具体来说,与变量的相关性无关(如OP所述)。这实际上是关于回归系数的预期相关性。尽管这可能与多重共线性有关,但不一定。在这种情况下,它告诉您,如果您再次进行实验并且碰巧 的系数cropforage变小了,那么 的系数也可能会变小sbare

在他的书“Analyzing Linguistic Data: A Practical Introduction to Statistics using R”中,处理 lme4 Baayen 的部分内容抑制了该部分输出,并声明它仅在特殊情况下有用。 是一条列表服务消息,贝茨本人在其中描述了如何解释该部分输出:

它是固定效应估计量的近似相关性。(我包括“近似”这个词,因为我应该,但在这种情况下,近似值非常好。)我不知道如何更好地解释它。假设您从模型中的参数中获取了一个 MCMC 样本,那么您会期望固定效应参数的样本显示类似此矩阵的相关结构。

通过将模型的“vcov”转换为相关矩阵来获得固定效应之间的相关性可能会有所帮助。如果fit是您安装的 lme4 模型,那么

vc <- vcov(fit)

# diagonal matrix of standard deviations associated with vcov
S <- sqrt(diag(diag(vc), nrow(vc), nrow(vc)))

# convert vc to a correlation matrix
solve(S) %*% vc %*% solve(S)

固定效应之间的相关性是非对角线条目。

如果您的负相关和正相关的值相同,只是符号不同,则您错误地输入了变量。但我认为你的情况并非如此,因为你的统计数据似乎已经相当先进了。

您遇到的不一致可能并且很可能是由多重共线性引起的。这意味着当一些变量共享一些重叠的影响,或者换句话说,它们本身是相关的。例如,对变量“生长率”和“肿瘤大小”进行建模可能会导致多重共线性,因为较大的肿瘤本身可能具有较高的生长率(在它们被检测到之前)。这可能会混淆模型。如果您的模型几乎没有相互关联的自变量,那么解释结果有时会变得非常困难。它有时会导致完全奇怪的系数,甚至达到某些相关性的符号反转的程度。

您应该首先检测多重共线性的来源并处理它们,然后重新运行您的分析。