我在一个人的样本中重复测量了 2 个时间点。第 1 时间有 18k 人,第 2 时间有 13k 人(5000 人失访)。
我想在时间 1 测量的一组预测变量 X 上回归在时间 2 测量的结果 Y(并且无法在时间 1 测量结果)。所有变量都有一些缺失的数据。其中大部分看起来相对随机,或者观察数据似乎很好地描述了缺失。然而,结果 Y 中的绝大多数缺失是由于后续行动的损失。我将使用多重插补 (R::mice),并将使用完整的数据集来插补 X 的值,但我收到了 2 条关于 Y 插补的相互矛盾的建议:
1) 在 18k 的完整样本中,根据 X 和 V(V = 有用的辅助变量)估算 Y。
2) 不要将 Y 归因于失访的个体(从而将其从任何后续回归模型中剔除)。
前者是有道理的,因为信息就是信息,为什么不全部使用呢?但后者也有道理,以更直观的方式 - 根据 Y ~ X + V 估算 5000 人的结果似乎是错误的,然后转身估计 Y ~ X。
哪个(更)正确?
这个先前的问题很有用,但并没有直接解决由于失访而导致的缺失(尽管答案可能是相同的;我不知道)。