关于 lmer 中如何指定随机效应的问题

机器算法验证 r 混合模式 lme4-nlme 随机效应模型
2022-02-04 03:47:27

我最近通过测量在不同上下文中查看单词时的 ERP (EEG),测量了如何通过重复暴露(练习:第 1 天到第 10 天)获得新单词的含义。我还控制了上下文的属性,例如,它对发现新词意义的有用性(高与低)。我对练习的效果(天)特别感兴趣。由于单个 ERP 记录有噪声,因此通过对特定条件的试验进行平均来获得 ERP 组件值。使用该lmer函数,我应用了以下公式:

lmer(ERPindex ~ practice*context + (1|participants), data=base) 

lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) 

我还在文献中看到了与以下随机效应等效的内容:

lmer(ERPindex ~ practice*context + (practice|participants) + 
                (practice|participants:context), data=base) 

通过使用形式的随机因子可以完成什么participants:context是否有一个很好的来源可以让仅粗略了解矩阵代数的人准确理解随机因素在线性混合模型中的作用以及应该如何选择它们?

3个回答

我将描述您的每个调用lmer()适合什么模型以及它们有何不同,然后回答您关于选择随机效应的最后一个问题。

您的三个模型中的每一个都包含 的固定效应practicecontext以及两者之间的相互作用。模型之间的随机效应不同。

lmer(ERPindex ~ practice*context + (1|participants), data=base) 

包含由具有相同值的个体共享的随机截距participants也就是说,每个participant的回归线都向上/向下移动一个随机量,平均值0

lmer(ERPindex ~ practice*context + (1+practice|participants), data=base) 

该模型除了随机截距外,还包含 中的随机斜率practice这意味着个人从实践中学习的速度因人而异。如果一个人具有正的随机效应,那么他们在练习中的增长速度比平均水平要快,而负的随机效应表明他们在练习中的学习速度低于平均水平,或者可能在练习中变得更糟,这取决于随机变量的方差效果(这是假设练习的固定效果是积极的)。

lmer(ERPindex ~ practice*context + (practice|participants) + 
                (practice|participants:context), data=base) 

该模型适合随机斜率和截距practice(您必须(practice-1|...)抑制截距),就像之前的模型一样,但现在您还在因子中添加了随机斜率和截距participants:context,这是一个新因子,其水平是 和 中存在的水平的每个组合,participants并且context相应的随机效应由具有相同值的观察共享participantscontext为了拟合这个模型,您需要有多个观测值,它们的值相同,participants并且context否则模型不可估计。在许多情况下,由该交互变量创建的组非常稀疏,并导致非常嘈杂/难以拟合随机效应模型,因此在使用交互因子作为分组变量时要小心。

基本上(阅读:不要太复杂)当您认为分组变量定义数据集中不均匀性的“口袋”或共享分组因子水平的个体应该相互关联时(而不应该相关的个体) - 随机效应实现了这一点。如果您认为观察值共享两者的水平participants并且context比两部分的总和更相似,那么包括“交互”随机效应可能是合适的。

编辑:正如@Henrik 在评论中提到的,您适合的模型,例如:

lmer(ERPindex ~ practice*context + (1+practice|participants), data=base)

使随机斜率和随机截距彼此相关,并且该相关性由模型估计。要约束模型以使随机斜率和随机截距不相关(因此是独立的,因为它们是正态分布的),您应该拟合模型:

lmer(ERPindex ~ practice*context + (1|participants) + (practice-1|participants), 
     data=base)

这两者之间的选择应该基于您是否认为,例如,participant具有比平均值更高的基线(即正随机截距)的 s 也可能具有比平均值更高的变化率(即正随机斜率)。如果是这样,您将允许两者相关,而如果不是,则将它们限制为独立的。(同样,这个例子假设固定效应斜率为正)。

@Macro 在这里给出了很好的答案,我只想补充一点。如果您遇到的某些人正在使用:

lmer(ERPindex ~ practice*context + (practice|participants) + 
                (practice|participants:context), data=base) 

我怀疑他们犯了一个错误。考虑:(practice|participants)意味着对于每个 的效果有一个随机斜率(和截距)practiceparticipant(practice|participants:context)意味着practice对于每个participant by context 组合的效果有一个随机斜率(和截距) 。这很好,如果这是他们想要的,但我怀疑他们想要(practice:context|participants),这意味着对于 each的交互效果有一个随机斜率(和截距) practice by contextparticipant

在随机效应或混合效应模型中,当您希望将观察到的效应视为从效应的某个概率分布中提取时,会使用随机效应。

我能给出的最好的例子之一是在对多中心临床试验的临床试验数据进行建模时。场地效应通常被建模为随机效应。之所以这样做,是因为试验中实际使用的 20 个左右的站点来自更大的潜在站点组。在实践中,选择可能不是随机的,但将其视为随机的仍然可能有用。

虽然站点效应可以建模为固定效应,但如果我们不考虑不同选择的 20 个站点的效果会有所不同这一事实,则很难将结果推广到更大的人群。将其视为随机效应使我们能够以这种方式对其进行解释。