固定与随机效应

机器算法验证 r 随机效应模型 咕噜咕噜
2022-03-08 23:02:36

我最近开始学习广义线性混合模型,并使用 R 来探索将组成员身份视为固定效应或随机效应的区别。特别是,我正在查看此处讨论的示例数据集:

http://www.ats.ucla.edu/stat/mult_pkg/glmm.htm

http://www.ats.ucla.edu/stat/r/dae/melogit.htm

正如本教程中所述,Doctor ID 的效果是可观的,我期待具有随机截距的混合模型能够提供更好的结果。但是,比较两种方法的 AIC 值表明该模型更差:

> require(lme4) ; hdp = read.csv("http://www.ats.ucla.edu/stat/data/hdp.csv")
> hdp$DID = factor(hdp$DID) ; hdp$Married = factor(hdp$Married)
> GLM = glm(remission~Age+Married+IL6+DID,data=hdp,family=binomial);summary(GLM)

Call:
glm(formula = remission ~ Age + Married + IL6 + DID, family = binomial, 
data = hdp)

Deviance Residuals: 
Min       1Q   Median       3Q      Max  
-2.5265  -0.6278  -0.2272   0.5492   2.7329  

Coefficients:
              Estimate Std. Error z value Pr(>|z|)    
(Intercept) -1.560e+01  1.219e+03  -0.013    0.990    
Age         -5.869e-02  5.272e-03 -11.133  < 2e-16 ***
Married1     2.688e-01  6.646e-02   4.044 5.26e-05 ***
IL6         -5.550e-02  1.153e-02  -4.815 1.47e-06 ***
DID2         1.805e+01  1.219e+03   0.015    0.988    
DID3         1.932e+01  1.219e+03   0.016    0.987   

[...]

DID405       1.566e+01  1.219e+03   0.013    0.990    
DID405       1.566e+01  1.219e+03   0.013    0.990    
DID406      -2.885e-01  3.929e+03   0.000    1.000    
DID407       2.012e+01  1.219e+03   0.017    0.987    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

(Dispersion parameter for binomial family taken to be 1)

Null deviance: 10353  on 8524  degrees of freedom
Residual deviance:  6436  on 8115  degrees of freedom
AIC: 7256

Number of Fisher Scoring iterations: 17


> GLMM = glmer(remission~Age+Married+IL6+(1|DID),data=hdp,family=binomial) ; m

Generalized linear mixed model fit by the Laplace approximation 
Formula: remission ~ Age + Married + IL6 + (1 | DID) 
Data: hdp 
AIC  BIC logLik deviance
7743 7778  -3867     7733
Random effects:
Groups Name        Variance Std.Dev.
DID    (Intercept) 3.8401   1.9596  
Number of obs: 8525, groups: DID, 407

Fixed effects:
             Estimate Std. Error z value Pr(>|z|)    
(Intercept)  1.461438   0.272709   5.359 8.37e-08 ***
Age         -0.055969   0.005038 -11.109  < 2e-16 ***
Married1     0.260065   0.063736   4.080 4.50e-05 ***
IL6         -0.053288   0.011058  -4.819 1.44e-06 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Correlation of Fixed Effects:
         (Intr) Age    Marrd1
Age      -0.898              
Married1  0.070 -0.224       
IL6      -0.162  0.012 -0.033


> extractAIC(GLM) ; extractAIC(GLMM)

[1]  410.000 7255.962
[1]    5.000 7743.188

因此,我的问题是:

(1) 比较两个函数提供的AIC值是否合适?如果是这样,为什么固定效应模型做得更好?

(2) 确定固定效应还是随机效应更重要的最佳方法是什么(即量化由医生引起的变异性比患者特征更重要?

3个回答

固定效应模型和随机效应模型对数据提出不同的问题。指定一组组级虚拟变量实质上控制了平均响应中所有组级未观察到的异质性,使您的估计仅反映单位内的可变性。随机效应模型首先假设存在(无论效果如何)的元群体,并且您的样本反映了该群体的许多抽取。因此,与其将您的结果锚定在异构截距上,不如将您的数据用于阐明应该从中提取数据的那个(通常是正态的)分布的参数。

人们常说,固定效应模型适用于对您拥有的数据进行推断,而随机效应模型适用于尝试对您的数据是随机样本的更大总体进行推断。

当我了解固定效应模型时,他们的动机是使用错误组件和面板数据。对给定单元进行多次观察,并及时进行随机处理t.

yit=αi+βTit+ϵit

您可以将错误术语分解为随时间变化的错误术语的组成部分,以及不随时间变化的部分:

yit=αi+βTit+ei+uit

现在从两边减去分组平均值:

yity¯i=αiα¯i+β(TitT¯i)+eie¯i+uitu¯it

没有下标的东西t通过基本减法从方程中得出——也就是说,随着时间的推移,平均值与任何时候的平均值相同,如果它从不改变的话。这包括您的错误术语的非时变部分。因此,您的估计不受时变异质性的影响。

这对于随机效应模型不太适用——你的非t-indexed 变量不会被该转换(“内部”转换)所吸收。因此,您可以推断组内不变的事物的影响。在现实世界中,这样的事情很重要。因此,随机效应有利于“对数据建模”,而固定效应模型有利于更接近特定术语的无偏估计。使用随机效应模型,您不能声称已删除该模型ei 完全。

在此示例中,时间是分组变量。在您的示例中,它是 DID。(即:它概括)

1)进行比较是合适的,只是不与这两个模型进行比较。你会想比较:

GLM <- glm(remission~Age+Married+IL6, data=hdp, family=binomial)

GLMM <- glmer(remission~Age+Married+IL6+(1|DID), data=hdp, family=binomial)

你可以用方差分析来做到这一点:

anova(GLM, GLMM)

(不确定这是否适用于glmandglmer结果,因为它们可能是不同的 R 对象。您可能必须使用两个具有可比较返回对象的函数,例如lmeand gls,或者自己进行方差分析。)

anova 将进行对数似然比检验,以查看随机医生效应的添加是否显着。在声明显着性之前,您需要将该 p 值除以 2,因为您正在测试随机医生效应为 0 的零假设,并且 0 位于参数空间的边界上以获得方差(您使用的实际分布测试是混合的χ02χ12分布——但此时我已接近自己无知的边界)。

对我来说,理解嵌套模型构建和假设检验过程的最佳书籍是 West、Welsh 和 Galecki (2007)线性混合模型:实用指南他们一步一步地经历一切。

2)如果您对每位患者进行多次观察,您还将为患者添加随机效应。然后为了测试耐心与医生的相对重要性,您可以查看患者的预测效果与医生的预测效果。每个随机效应项将量化患者之间和医生之间的差异量,如果这是您感兴趣的问题。

(如果我错了,请有人纠正我!)

模型非常不同。当所有的医生ID效应都被估计并且被分配参数估计时,glm 模型正在解决偏差的总体减少(从零模型)。当然,您注意到 Age、Married 和 IL6 在两个模型中都具有相同的 Wald 统计数据,对吗?我的理解(我承认不是一个高度精确的模型)是混合模型将医生 ID 视为有害因素或分层,即不能假定从任何特定父分布中提取的“影响”。我认为没有理由认为使用混合模型会提高您对“医生效应”的理解,事实上恰恰相反。

如果您对年龄、已婚或 IL6 的影响感兴趣,我会想象您不会比较这两个模型的 AIC,而是比较 AIC 的差异,并在同一建模结构中去除感兴趣的协变量。