使用双胞胎研究数据进行线性混合效应建模

机器算法验证 混合模式 lme4-nlme 协方差矩阵 非独立的
2022-03-25 21:57:21

假设我有一些响应变量yijj兄弟姐妹i家庭。此外,一些行为数据xij从每个受试者同时收集。我正在尝试使用以下线性混合效应模型分析情况:

yij=α0+α1xij+δ1ixij+εij

在哪里α0α1分别是固定截距和斜率, δ1i是随机斜率,并且εij是残差。

随机效应的假设δ1i和剩余εij是(假设每个家庭只有两个兄弟姐妹)

δ1idN(0,τ2)(εi1,εi2)TdN((0,0)T,R)

在哪里τ2是一个未知的方差参数和方差-协方差结构R是一个 2 x 2 对称矩阵,形式为

(r12r122r122r22)

它模拟了两个兄弟姐妹之间的相关性。

  1. 对于这样的兄弟姐妹研究,这是一个合适的模型吗?

  2. 数据有点复杂。在这 50 个家庭中,接近 90% 是双卵(DZ)双胞胎。对于其余的家庭,

    1. 两个只有一个兄弟姐妹;
    2. 两个有一对 DZ 对加上一个兄弟姐妹;
    3. 两个有一个 DZ 对加上两个额外的兄弟姐妹。


    我相信lmeR 包nlme可以轻松处理 (1) 丢失或不平衡的情况。我的麻烦是,如何处理(2)和(3)?我能想到的一种可能性是将 (2) 和 (3) 中的这四个家庭中的每一个分成两个,以便每个子家庭都有一个或两个兄弟姐妹,因此上述模型仍然可以应用。这样好吗?另一种选择是简单地丢弃(2)和(3)中额外的一两个兄弟姐妹的数据,这似乎是一种浪费。有更好的方法吗?

  3. 似乎lme可以修复r残差协方差矩阵中的值R, 例如r122= 0.5。强加相关结构是否有意义,或者我应该简单地根据数据估计它?

1个回答

通过使用虚拟变量并在该虚拟变量中包含随机斜率,您可以在统一模型中包含双胞胎和非双胞胎。由于所有家庭最多有一对双胞胎,这将相对简单:

如果家庭中的兄弟是双胞胎,则我假设您还希望双胞胎与常规兄弟姐妹的随机斜率不同 - 如果不是,请不要在下面的模型中包含项。Aij=1jiηi3

然后拟合模型:

yij=α0+α1xij+ηi0+ηi1Aij+ηi2xij+ηi3xijAij+εij

  • α0,α1是固定效果,如您的规范中所示

  • ηi0是“基线”兄弟姐妹随机效应,而是允许双胞胎比常规兄弟姐妹更相似的附加随机效应。相应的随机效应方差的大小量化了兄弟姐妹的相似程度以及双胞胎比普通兄弟姐妹的相似程度。请注意,双胞胎和非双胞胎相关性均由该模型表征 - 双胞胎相关性是通过适当地对随机效应求和来计算的(插入)。ηi1Aij=1

  • ηi2有类似的作用,只是它们充当ηi3xij

  • εij是独立同分布误差项 - 请注意,我在随机截距而不是相关残差方面编写的模型略有不同。

R您可以使用包来拟合模型lme4在下面的代码中,因变量是y,虚拟变量是A,预测变量是x,虚拟变量和预测变量的乘积是Ax并且famID是家庭的标识符号。假设您的数据存储在数据框中D,这些变量作为列。

library(lme4) 
g <- lmer(y ~ x + (1+A+x+Ax|famID), data=D) 

可以通过键入查看随机效应变量和固定效应估计值summary(g)请注意,该模型允许随机效应彼此自由相关。

在许多情况下,假设随机效应之间的独立性可能更有意义(或更容易解释)(例如,这种假设通常用于分解遗传与环境家族相关性),在这种情况下,您应该输入

g <- lmer(y ~ x + (1|famID) + (A-1|famID) + (x-1|famID) +(Ax-1|famID), data=D)