我正在开展一个项目,该项目回顾性地收集有关主题的数据。每个人都有多个跟踪点,从 1 到 3 次测量。这种测量的时间是非常可变的。大多数受试者有 1 个测量值,但许多有 2 或 3 个测量值。我们对随时间推移的人口趋势感兴趣,并希望使用所有可能的数据。
使用具有随机斜率的混合模型来分析具有这种结构的数据是否合适?我认为拟合随机截距模型没有直观的问题。但是,对于单次测量的人来说,随机斜率是如何估计的呢?如果大多数受试者只有 2 或 3 次测量,随机斜率是否可能(或推荐)或者这是否过度拟合数据?
我正在开展一个项目,该项目回顾性地收集有关主题的数据。每个人都有多个跟踪点,从 1 到 3 次测量。这种测量的时间是非常可变的。大多数受试者有 1 个测量值,但许多有 2 或 3 个测量值。我们对随时间推移的人口趋势感兴趣,并希望使用所有可能的数据。
使用具有随机斜率的混合模型来分析具有这种结构的数据是否合适?我认为拟合随机截距模型没有直观的问题。但是,对于单次测量的人来说,随机斜率是如何估计的呢?如果大多数受试者只有 2 或 3 次测量,随机斜率是否可能(或推荐)或者这是否过度拟合数据?
在基本的混合效应模型中,
只有一个观测值的集群对随机效应的估计方差和固定效应的斜率都有影响。这是因为从不实际估计随机截距。虽然一些数值求解器会生成随机截距的估计值,但它们实际上是在联合估计随机效应方差和固定效应斜率后计算的事后统计量。
如果您使用不平衡设计拟合混合效应模型,则验证这些估计的正态性很重要(当集群数量较少时,这可能是一个强大且有影响的假设)。举个例子,假设我经营一家医疗诊所,我们正在验证接受抗逆转录病毒疗法(例如 effivirenz)的受试者对艾滋病的管理。如果我将基线的流行案例和在随访期间的事件病例,我的分析现在对发病率的分布很敏感。例如,假设我的病例中有 70% 是在两年前被诊断出来的,并且已经成功地控制了疾病,而我的 30% 的病例在开始治疗之前是偶然的并且病毒载量很高。我现在有一个不均匀的随机截距双峰分布(“访问 1”时的病毒载量),我的固定效应偏向于零(当它实际上暗示它对管理疾病有效时)。
另一方面,GEE 不对随机效应的分布做出任何假设,并且与总体平均效应估计一致:(M 表示边际)而不是(C 表示条件)。这些模型彼此相关,但平均而言,的推理测试通常具有更高的功效。