混合模型中分类变量的编码(虚拟与效果编码)

机器算法验证 r 混合模式 lme4-nlme 分类编码
2022-03-24 10:08:38

基于实验的模型如下所示:

glmer(Y ~ X*Condition + (X*Condition|subject) + (1+X|Trial))

# Y = logit variable  
# X = continuous variable  
# Condition = values A and B, dummy coded; the design is repeated 
#             so all participants go through both Conditions  
# subject = random effects for different subjects  
# trial = random effects for different trials  

到目前为止,我认为对交互作用和随机效应的解释非常简单:

  • 对于固定效果:

    • 截距 - 当 X 为 0 时,条件 0 中的 Y 值是多少
    • X - 在条件 0 中 X 改变 1 个单位,Y 会改变多少
    • ConditionB - 条件 B 与条件 A 的截距有什么区别
    • X*ConditionB - ConditionB 与 ConditionA 的斜率有何不同
  • 对于随机效应:

    • 随机截距 - 截距周围的随机变化
    • random X - X 周围的随机变异性
    • random ConditionB - ConditionB 和 ConditionA 之间截距差异的随机变异性
    • random X*ConditionB - ConditionB 和 ConditionA 之间斜率差异的随机变化

但是,我已经阅读了Henrik SingmannDavid Kellen写的一篇写得很好的章节An Introduction to Mixed Models for Experimental Psychology,他们说

换句话说,一个混合模型(或任何其他回归类型模型)包括与使用治疗对比的因素的相互作用,产生的参数估计以及通常与人们想要的不对应的 III 型检验(例如,主效应不是通常理解为主效应)。

建议使用效果编码作为解释连续变量X和分类变量相互作用的更好方法Condition我知道大写的随机效应相关性有点难以解释 - Intercept 和 X 的相关性很简单,但 X 和 X:ConditionB 的相关性不是,因为我们将系数与这些系数的差异相关联。然后需要计算每手的相关性,如如何在 lme4 中使用 (X*Condition|subject) 模型计算两个条件之间 X 的随机斜率的相关性中所述?

我的问题是:

  1. 我对固定效应和随机效应的解释是否有效?如果不是,为什么?

  2. 为什么在混合模型中效果编码比虚拟编码更好,您如何解释效果编码?

1个回答

正如@amoeba 在评论中所说,这个问题与其说是一个混合模型问题,不如说是一个关于如何通过交互参数化回归模型的一般问题。我们这一章的完整引文也为您的第二个问题(即为什么)提供了答案:

一种常见的对比方案是 R 中的默认设置,称为处理对比(即,contr.treatment; 也称为伪编码)。对于治疗对比,第一个因子水平用作基线,而所有其他水平都映射到一个值为 1 的对比变量。因此,截距对应于基线组的平均值,而不是总平均值。在拟合没有交互作用的模型时,这种对比的优点是估计值(即对比变量对应的参数)表明对应的因子水平和基线之间是否存在差异。然而,当包括交互作用时,治疗对比会导致通常难以解释的结果。虽然最高阶交互作用不受影响,但低阶效应(如主效应)在基线水平上进行估计,最终产生所谓的简单效应,而不是通常预期的低阶效应。重要的是,这适用于低阶效应的结果参数估计以及它们的 III 型测试。换句话说,一个混合模型(或任何其他回归类型模型)包括与使用治疗对比的因素的相互作用,产生的参数估计以及通常与人们想要的不对应的 III 型检验(例如,主效应不是通常理解为主效应)。因此,我们通常建议避免对包含交互作用的模型进行处理对比。这适用于低阶效应的结果参数估计以及它们的 III 型测试。换句话说,一个混合模型(或任何其他回归类型模型)包括与使用治疗对比的因素的相互作用,产生的参数估计以及通常与人们想要的不对应的 III 型检验(例如,主效应不是通常理解为主效应)。因此,我们通常建议避免对包含交互作用的模型进行处理对比。这适用于低阶效应的结果参数估计以及它们的 III 型测试。换句话说,一个混合模型(或任何其他回归类型模型)包括与使用治疗对比的因素的相互作用,产生的参数估计以及通常与人们想要的不对应的 III 型检验(例如,主效应不是通常理解为主效应)。因此,我们通常建议避免对包含交互作用的模型进行处理对比。主效应不是通常理解的主效应)。因此,我们通常建议避免对包含交互作用的模型进行处理对比。主效应不是通常理解的主效应)。因此,我们通常建议避免对包含交互作用的模型进行处理对比。

正交归零对比度更好,因为它们避免了可能难以解释的低阶效应。也就是说,对于这些对比,所有低阶效应都以大均值进行评估。有关虚拟与效果编码差异的快速说明,请参阅:http ://www.lrdc.pitt.edu/maplelab/slides/Simple_Main_Effects_Fraundorf.pdf

这意味着对于您的情况,几乎所有的解释都是正确的,只有一个例外。

  • ConditionB -当 X 为零时,条件 B 与条件 A 的截距有什么区别

因此,如果零对您的变量(例如,它是年龄并且您只观察成年参与者)来说有些无意义,那么您对 ​​Condition 的估计(现在是 X = 0 时条件的简单影响)也变得毫无意义。

一般来说,与连续协变量进行交互并非易事,至少有两本书和几篇论文广泛讨论了这个问题。一个常见的解决方案是将协变量集中在均值上。这是否有意义取决于您的协变量。当变量的范围受到限制(例如,它从 0 到 100)时,我有时会做的是以刻度的中点为中心(例如,请参见此处)。

有关定心的更多信息,请参见以下参考资料。我建议您至少阅读第一个:

  • Dalal, DK 和 Zickar, MJ (2012)。关于在适度多元回归和多项式回归中居中预测变量的一些常见神话。组织研究方法,15(3),339-362。doi:10.1177/1094428111430540 [免费 pdf ]
  • Cohen, J.、Cohen, P.、West, SG 和 Aiken, LS (2002)。行为科学的应用多元回归/相关分析纽约:劳特利奇学术。[好书]
  • 艾肯,LS 和韦斯特,SG(1991 年)。多元回归:测试和解释交互。加利福尼亚州纽伯里公园:Sage Publications。

还有一些关于居中的混合模型特定讨论,但对我来说,这似乎主要与层次结构(即至少两级嵌套)相关,例如,

  • Wang, L. 和 Maxwell, SE (2015)。关于使用多级模型使用纵向数据分解人与人之间和人内的影响。心理方法,20(1),63-83。https://doi.org/10.1037/met0000030

可能也相关:

  • Iacobucci, D., Schneider, MJ, Popovich, DL 和 Bakamitsos, GA (2016)。均值居中有助于缓解“微观”而非“宏观”多重共线性。行为研究方法,48(4),1308-1317。https://doi.org/10.3758/s13428-015-0624-x