在纵向研究中,我是否应该为失访的个体估算在时间 2 测量的结果 Y?

机器算法验证 面板数据 多重插补
2022-03-28 03:19:08

我在一个人的样本中重复测量了 2 个时间点。第 1 时间有 18k 人,第 2 时间有 13k 人(5000 人失访)。

我想在时间 1 测量的一组预测变量 X 上回归在时间 2 测量的结果 Y(并且无法在时间 1 测量结果)。所有变量都有一些缺失的数据。其中大部分看起来相对随机,或者观察数据似乎很好地描述了缺失。然而,结果 Y 中的绝大多数缺失是由于后续行动的损失。我将使用多重插补 (R::mice),并将使用完整的数据集来插补 X 的值,但我收到了 2 条关于 Y 插补的相互矛盾的建议:

1) 在 18k 的完整样本中,根据 X 和 V(V = 有用的辅助变量)估算 Y。

2) 不要将 Y 归因于失访的个体(从而将其从任何后续回归模型中剔除)。

前者是有道理的,因为信息就是信息,为什么不全部使用呢?但后者也有道理,以更直观的方式 - 根据 Y ~ X + V 估算 5000 人的结果似乎是错误的,然后转身估计 Y ~ X。

哪个(更)正确?

这个先前的问题很有用,但并没有直接解决由于失访而导致的缺失(尽管答案可能是相同的;我不知道)。

结果变量的多重插补

2个回答

我认为这是一个仪器案例。你想要一个缺失的 X,而不是缺失的 Y。

Y~X

但是 X 经常丢失或测量错误。

X~Z and Z does not impact Y- except through X.

然后你可以运行:

 X~Z
 Y~Predicted(X)

并且需要对标准误差进行一些调整。

如果您有大量样本损耗,您可能还想查看 Heckmann 2 步程序。 http://en.wikipedia.org/wiki/Heckman_correction

我认为两者都不是最合适的。

当数据不是 MAR 或 MCAR 并且数据很少以这种方式出现时,插补通常不合适。在估算您的值时,这可能是一个合理的假设,但肯定不适用于您的数据。XY

从您的数据中删除所有缺失的数据会导致您的参数出现偏差(如果数据不是 MCAR,请参见上文)并显着降低估计的精度。这是一个“完整案例”分析,不可取。

我建议审查那里的生存分析方法。这些方法旨在分析您的数据,因为您的一些结果由于审查而未被观察到。如果您可以确定哪些观察被删失,有些模型会考虑到这一点。Y