在混合效应模型中,您如何确定斜率和截距何时应该独立?

机器算法验证 数理统计 混合模式
2022-03-26 19:41:24

这是一个关于混合效应模型基础理论的问题,特别是可用于确定随机效应部分结构的一般经验法则。

以下是我的理解:

(1)包括:随机截取:如果您对变量有多个测量值(即随着时间的推移重复问题或研究参与者回答多个问题或在多个时间段内进行的调查)

(2)包括:RANDOM INTERCEPT + RANDOM SLOPE:如果您对 FE-RE 变量有多个测量值(即研究的参与者暴露于多个实验条件)

如何决定是否使截距+斜率关系受约束或不受约束?

在 R 中使用 LMER 包的表示法,请参阅以下差异:

选项1:

对斜率-截距关系没有限制。只是一个随机斜率和随机截距:

lmer(Y ~ 1 + B + (1 + B | A), 数据=d)

选项 2:

强制 B 的截距和斜率独立于 A 的条件然后

lmer(Y ~ 1 + B + (1 | A) + (0 + B | A), 数据=d)

信用:这个网站在帮助澄清语法方面非常棒。 http://conjugateprior.org/2013/01/formulae-in-r-anova/

不幸的是,我不太清楚上述选择背后的理论。什么时候选择选项 1 和选项 2 在统计上是合理的?

3个回答

我只是回应,以防这可能对其他人有用。


未决问题

事实证明,我仍然没有找到一个明确的资源来以理论方式区分这两个选项 - 即区分它们不是作为一种优化,而是作为最适合捕获不同类型的实验设计的不同模型结构。

理想情况下,您应该能够依赖于您对研究的属性/结构/数据样本/数据启发技术的了解,并且在查看数据之前就随机效应模型做出决定。

毕竟,应该根据理论假设先验地确定随机效应。

这部分问题仍未得到令人满意的回答

什么是基于理论驱动/实验设计的特征,应该允许我们确定选项 1 或选项 2 是否是合适的选择。


选项 1: 无约束的随机斜率截距

(G)LMER ---|[ m.1 ]|---[ Y ~ 1 + B + (1 + B | A)]|


选项 2: 具有不相关随机效应的随机斜率截距

(G)LMER ---|[ m.2 ]|---[ Y ~ 1 + B + (1 | A) + (0 + B | A)]|



实践中的部分解决方案

但是,我确实找到了Douglas Bates 的教程,可能会有所帮助。大约从第 73 张幻灯片开始,他介绍了这个主题。从本质上讲,这种反应是受到这些幻灯片的启发并经常复制这些幻灯片。如果您想了解更多详细信息,请前往那里。

1. 检查你的随机效应图

Bates 建议,如果对数据图的目视检查“几乎没有表明受试者对斜率的随机效应与他/她对截距的随机效应之间的系统关系”,我们可能需要考虑使用具有不相关随机效应的模型。

2. 模型比较

2(a) 从上面构建选项 2

首先,我们构建了具有不相关随机效应的模型。为了表达这一点,我们使用了两个具有相同分组因子和不同左侧的随机效应项。

两个分组因素:

  1. (1 | A)------------【随机截取】
  2. (0 + B | A)--------[随机斜率,无截距]
  3. 由于不同的随机效应项被建模为独立的,通过设计,这强加了一个约束,即上面的随机截距 (1) 独立于以 A 为条件的斜率 (2)。

2(b) 使用 ANOVA 比较模型

使用 ANOVA 进行模型比较


  • 模型m.1表示与上述选项 1相关的无约束随机截距斜率模型

  • 模型m.2代表选项 2,其中截距和斜率独立于 A


模型m.1包含m.2,即:

如果模型m.1的参数值受到约束以强制相关性(以及协方差)为零,并且我们可以让模型重新拟合,我们将得到m.2


  1. 使用似然比检验来确定m.1是否增加了实质性和统计意义的东西;

  2. 如果不是,使用简约模型的偏好(即“越小越好”)并偏好更简单、更受约束的模型;

  3. 由于约束相关性的值0不在允许参数值的边界上,所以似然比检验和1自由度上的χ2的参考分布是合适的。

3. 方差分量的似然比检验

至于协方差的情况,我们可以在有和没有方差分量的情况下拟合模型,并比较拟合的质量。

似然比是比较合理的检验统计量,但 χ2 的“渐近”参考分布不适用,因为被检验的参数值在边界上。

使用 χ2 参考分布计算的 p 值应该是保守的(即大于通过模拟获得的 p 值)。

4. 参考资料和资源

以下是经验法则。

我认为默认选择应该是斜率和截距共变 ( (1 + A | B)) 的模型。除非您有理论上或技术上的理由来排除协方差的可能性,否则在大多数情况下,至少允许这种可能性是很有意义的。我无法提出理论原因,但技术原因可能是您没有足够的数据来估计协方差。另一方面,即使在这种情况下,估计协方差也可能会改进对随机斜率和截距的估计。

如果您的交叉验证或方差分析或其他“硬”度量(也许尝试 WAIC?)对于没有协方差的模型更好,我会怀疑,或者至少有兴趣找出它发生的原因。

我想我可能有一条额外的信息可以用来帮助你。在计量经济学领域,更准确地说,在面板数据估计领域(计量经济学家称纵向/重复测量数据的方式)。

我向您介绍的测试是 Hausman 规范测试。理论框架是根据估计量的一致性来测试随机效应模型是否优于固定效应模型。

我使用的方法与您的答案更相似,但这对您来说可能是另一种想法。

这里有一些资源:

  1. 维基百科文章
  2. 一个很好的视频解释测试
  3. 测试中的一些幻灯片
  4. 第 10 章伍德里奇对横截面和面板数据的计量经济学分析