多级协方差结构等

机器算法验证 r 多层次分析 lme4-nlme 协方差矩阵
2022-03-22 08:18:00

我对安装在 R 中的多级模型中的协方差结构有一些疑问(使用nlme包)。我不是专家(刚开始学习统计......),所以如果我的一些问题看起来很明显,我很抱歉。我检查了以前的帖子,但没有找到答案。

我有一个实验的数据,我们在 2 个条件下记录了 30 名受试者的生理数据(每种条件下 30 次试验)。这 30 次试验在时间上很接近,我们预计更接近的试验之间的相关性更高,随着试验彼此相距更远,相关性会降低。我们感兴趣的是条件的影响,而不是时间的影响。我认为分析这些数据的正确方法是拟合一个多级模型,其中TRIAL是1级变量,SUBJECT是2级变量,CONDITION是固定因子,DV是生理反应(FR)。我正在使用的 R 命令是:

lme(fixed= FR ~ CONDITION, data=mydata, random= ~ TIME | SUBJECT)

我的(很多)问题既有理论性又有实践性:

  • 默认情况下使用哪种协方差结构lme不使用最合适的协方差结构会不会有问题?

  • 我读过自回归协方差结构(AR1)是指每个时间点的恒定方差以及随着时间点越来越远的更弱的相关性。我的数据只符合第二个标准。我如何知道哪种协方差结构适合我的数据?对结果的有效性有多重要?

  • 我只对 CONDITION 效应感兴趣,当我在模型中不包括 TIME 时,这很重要。我对 TIME 效应不感兴趣,也不想使用模型进行预测,而只是检查 CONDITION 效应的显着性。如果我退出 TIME 并仅使用 CONDITION 拟合模型是否正确?

谢谢您的帮助!

2个回答

我不确定我能否提供我想要的那种答案,但我会尝试抛出一些关于你的问题的信息。

首先,@Seth 和@gui11aume(每人+1)都注意到lme()默认为无组内相关性。问题是为什么,以及这是否可能是一个问题。我相信这种想法是一个正确指定的多级模型,它将解释您的观察结果之间的协方差,从而使残差是独立的。这就是为什么对函数进行编码以期望没有相关性的原因。也就是说,你可能没事。

您的几个问题涉及错误指定的方差/协方差结构的影响(请记住,这实际上可能不适用于您)。您对 beta 的估计应该不受此影响,也就是说,它们应该是无偏的。但是,抽样分布的方差估计将不准确,也就是说,您的 p 值将不准确。此外,我相信您不能先验地判断它们是否会太高或太低。如果你真的关心这些问题,你总是可以使用健壮的(又名“三明治”)标准错误。这些通常是在广义线性模型的背景下考虑的,但它们可以在其他地方使用。查看 R 包三明治. 请注意,如果它们不是必需的,您可能会面临增加 II 类错误的风险。

据我所知,标准的 AR(1) 方差/协方差结构确实假设同方差。然而,更具限制性的是,它假设每次观察都是在适当的时间进行的,并且所有测量在时间上都是等距的。即使在最偶然的情况下,这些假设通常也不成立,因此,假设 AR(1) 方差/协方差结构是危险的。

请记住,模型的正确规范是至关重要的。时间很可能与适当的均值模型无关,但可能性不大。将 TIME 排除在模型之外会导致遗漏变量偏差因此,丢弃 TIME 可能会产生均值的有偏估计无效推论。这不值得赌。

@Seth 已经解决了您的第一点:默认设置是没有组内相关性。关于你的第二点,我认为这取决于时间的影响大小。如果与您的其他变量(如 CONDITION 和 SUBJECT)相比效果较小,则不适合应该不是问题。但是如果 TIME 是一个主要影响,你会希望你的模型能很好地描述它。

现在关于您的第三个问题,如果您通过调用从模型中删除 TIME

lme(fixed= FR ~ CONDITION, data=mydata, random= ~ 1 | SUBJECT)

您删除交互项TIME*SUBJECT因此,如果 TIME 对每个主题都具有相同的效果,那没什么大不了的。但是,如果响应显示(或预计会显示)某些人在某个时间的特定行为(比如有些人变得更好,有些人变得更糟),那么这将以难以理解的方式“吸收”在您的其他变量中预测(即可能使某些术语重要而其他不重要)。

您对 TIME 不感兴趣并不意味着您应该将其排除在模型之外。我要说的恰恰相反。举一个启发式示例,在简单的线性回归中,您拟合斜率和截距,但您通常只对斜率感兴趣。如果不包括截距项,则通过原点拟合一条线。您可以自己检查,使用这种方法,您有时会(对于不同的点云)得出错误的结论:得出斜率非空的结论,反之亦然

因此,如果您有疑问,请保留 TIME,但只关注 CONDITION 的估计值和 p 值。