证明需要混合效应模型(又名 LME、MLM 等)

机器算法验证 回归 混合模式 重复测量 多层次分析 随机效应模型
2022-03-21 13:33:14

首先,我不是使用多级建模(MLM)的专家,我已经阅读了这个这个问题,但是,我的问题略有不同,因为没有提到下面的方法 2。

由于多层次建模相当复杂,我想首先证明对它的需求是合理的。在这方面,我知道两种方法:

1)评估项目之间是否存在足够且显着的差异(又名上下文):

此方法在《使用 R 发现统计信息》一书第 19.6.6 节中提到。它意味着将仅通过最大似然拟合的基线截距广义最小二乘与通过最大似然拟合的另一个线性混合效应模型进行比较,其中截距允许跨项目变化。如果适合度显着提高,则需要使用 MLM。

我的两个模型的示例R是响应/结果变量:

M1 = nlme::gls(R ~ 1, data = univariate_data, method = "ML")
M2 = nlme::lme(R ~ 1, data = univariate_data, method = "ML", random = ~1|item_id)

方差分析比较:

##                    Model df      AIC      BIC    logLik   Test  L.Ratio p-value
## M1                     1  2 9181.778 9191.491 -4588.889                        
## M2                     2  3 9170.908 9185.477 -4582.454 1 vs 2 12.87025   3e-04

从测试中,我们看到,在解决了项目/上下文的可变性之后,对数似然显着提高了 12.87,但牺牲了 1 个自由度,因此:χ2(1)=12.87,p=.0003. 这需要使用传销

2) 比较无条件 LME 模型:

我在网上读过这个,但我不记得在哪里。将两个无条件 LME 模型相互比较,如果允许截距在项目(上下文)之间变化确实显着提高了拟合度,则断言使用 MLM。

我的两个模型的示例R是响应/结果变量:

MN1 = lmer(R ~ 1 + (1 | subject_id), data = univariate_data, REML = FALSE,
           control = lmerControl(optimizer ='optimx', optCtrl=list(method='nlminb')))

MN2 = lmer(R ~ 1 + (1 | subject_id) + (1 | item_id), data = univariate_data, REML = FALSE,
           control = lmerControl(optimizer ='optimx', optCtrl=list(method='nlminb')))

方差分析比较:

##             npar    AIC    BIC  logLik deviance  Chisq Df Pr(>Chisq)
## MN1            3 7096.9 7110.7 -3545.5   7090.9                     
## MN2            4 7096.7 7115.1 -3544.4   7088.7 2.1966  1     0.1383

如您所见,两种 LME 模型之间的拟合没有显着差异。

我的难题来自于结果不一致:方法 1 证明了传销,但方法 2 没有。我们如何解释这种差异?为了研究传销的可行性,哪种方法更稳健?

注意:在上一个问题中,我了解到仅目视检查是研究 MLM 可行性的弱方法。

2个回答

首先,我同意@EdM,您应该首先考虑是否是实质性的多级模型,而不是仅在模型比较中寻找统计意义。但你可能会问:怎么做?好吧,问自己几个关于你的研究假设的问题可能会有所帮助。它对您的研究是否重要:

    1. 评估多个二级预测器的效果?
    1. 评估一级和二级预测变量(或三级和二级等)之间的相互作用?
    1. 第一级预测变量的间效应和内效应的分解?

如果您对这些问题中的任何一个回答是肯定的,那么多级模型可能是您最好的选择,即使不是唯一的选择。我猜这个推理来自Gelman & Hill 关于多级模型的经典书籍您也可以在其他链接中找到它。这篇经典论文Enders 和 Tofighi (2007 ) 可能会帮助您了解这些问题,并且对于学习如何避免对多级模型 (MLM) 中的相关问题的批评也很有用。您还可以在本文本文中找到类似的理由我在下面解释得更好一些。

其次,您可能还对类内相关性 (ICC) 感兴趣。也就是说,您想知道有多少因变量方差是由于第二和第三级组之间或内部的差异造成的。高 ICC 有时会作为您需要传销的证据。实际上,这证明您拥有高度聚类的数据,这违反了标准的 OLS 回归假设(重复测量/主题内研究设计几乎总是如此)。但是您也可以使用固定效果来纠正它,正如您在上述论文中看到的那样。

固定效应的问题是只有一个变量会吸收更高级别组的所有方差。这就是为什么如果您对一个以上的二级预测器感兴趣,那么 MLM 可能是您的最佳选择。此外,ICC 本身可能是一个有趣的衡量标准。同时它为多层次模型提供了一些支持,也是对你的数据多层次结构的一种易于理解和有用的实质性解释。

第三,虽然研究假设和实质性推理在模型选择中应放在首位,但模型拟合统计量也很重要如果您的新模型比以前的模型更适合您的数据,您可能需要返回或更改新模型中的其他内容。

四、你的问题:

“方法 1 证明 MLM 合理,但方法 2 不合理。我们如何解释这种差异?为了研究 MLM 的可行性,哪种方法更可靠?”

好吧,结果之间没有任何差异问题在于,在“方法 1”中,您将一级模型与二级模型进行比较。在“方法 2”中,您将两级模型与三级模型进行比较。这就是为什么你得到不同的结果。你在比较不同的东西这两种方法几乎相同:卡方检验。但是你放在里面的东西是不同的。

事实上,您正在比较四个不同的模型,只有两个成对比较。M1你只有一个级别。M2你有一个两级模型,你的第二级是item. MN1你有一个两级模型,但你的第二级是subject. MN2你有一个三级模型,你的第二级是subject,你的第三级是item你不能说这四个模型中哪一个是最好的,至少如果你只看 p 值的话,因为你没有比较它们。

但是,如果您忘记了 p 值,并查看其他统计数据,特别是 Akaike 信息标准 (AIC) 和贝叶斯信息标准 (BIC),它们是目前评估多级模型的模型拟合的标准,您可能会看到您的最佳模型介于MN1和之间MN2

如果你仔细看看第二个测试:你会发现你的 p 值不是很高。您还会看到 AIC 和对数似然比检验表明您的三水平模型比两水平模型的拟合度稍好。BIC 和卡方显示相反。你的 p 值怎么会高于 0.05?好吧,您的 p 值仅基于卡方检验,这可能是比较少用的检验(显示的四个)来比较 MLM。但这真的很接近。所以,你有一个统计联系,你可以根据你的实质性问题做出决定。

第五,您可能还认为多级模型有一些假设和数学要求。@EdM 可能是对的,他说 MLM 与部分池一起工作,并且您不必太担心每组很少有第一级观察。我也是这样学的。然而,这一假设受到了本文的质疑。我从不遵循最后一篇论文的样本量要求,事实上,我不知道社会科学中有任何多级模型可以做到。但是,正如您在此处看到的那样,您需要至少 50 个更高级别的单位/组在该领域中或多或少地得到巩固如果您的数量少于此数量,则固定效应可能会为您提供更好的估计。

您正在测试的是随机效应项的统计“显着性”。正如统计数据中经常出现的情况一样,这可能与它们的“重要性”大不相同。请注意您已阅读的其中一个问题的答案的这一部分:

通常包括随机效应以说明组/集群内测量值的相关性。

如果您的实验设计涉及观察之间的相关性,可能会使独立观察的假设无效,则需要考虑这些相关性。如果有多个个人/群体/集群,使用随机效应对它们进行建模提供了一种有据可查的方法。当您执行测试时,您可能会发现随机效应不会为您的模型添加任何“重要”内容,但您的听众会期望将这些相关性考虑在内是“重要的”。

在多层次建模中,您甚至可以选择将性别等预测变量(通常建模为固定效应)作为随机效应。本页本页的讨论涵盖了有意义的情况。如果您使用诸如 lmer()多级建模之类的常客工具,这可以提供一个优势。随机效应通过所有组之间的部分汇集来建模,而不是分别估计每个组。正如这个答案所指出的:

部分池化意味着,如果您在一个组中的数据点很少,则该组的效果估计将部分基于来自其他组的更丰富的数据。这可以是通过完全汇集所有组来估计效果之间的一个很好的折衷方案,这掩盖了组级别的变化,以及完全分别估计所有组的效果,这可能会对低样本组产生较差的估计。

如果您想要部分池化的优势,那么使用随机效应进行建模将是“重要的”,即使它们并不“显着”。

因此,不必担心从统计上证明选择随机效应模型的合理性;更多地考虑这种建模是否有助于加强您的分析。