结果变量的多重插补

机器算法验证 缺失数据 荟萃分析 多重插补 元回归
2022-01-31 02:51:45

我有一个关于农业试验的数据集。我的响应变量是响应比:log(治疗/控制)。我对调节差异的因素感兴趣,所以我正在运行 RE 元回归(未加权,因为似乎很清楚,效应大小与估计的方差不相关)。

每项研究都报告谷物产量、生物量产量或两者兼而有之。我不能从仅报告生物量产量的研究中估算谷物产量,因为并非所有研究的植物都对谷物有用(例如甘蔗)。但是每一种生产谷物的植物也有生物量。

对于缺失的协变量,我一直在使用迭代回归插补(遵循 Andrew Gelman 的教科书章节)。似乎给出了合理的结果,整个过程总体上是直观的。基本上我预测缺失值,并使用这些预测值来预测缺失值,并遍历每个变量,直到每个变量近似收敛(分布)。

我有什么理由不能使用相同的过程来估算缺失的结果数据?考虑到谷物响应比、作物类型和我拥有的其他协变量,我可能可以为生物量响应比形成一个信息量相对丰富的插补模型。然后我会平均系数和 VCV,并按照标准做法添加 MI 校正。

但是,当结果本身被估算时,这些系数衡量的是什么?系数的解释与协变量的标准 MI 有什么不同吗?想一想,我无法说服自己这不起作用,但我不确定。欢迎对阅读材料提出想法和建议。

2个回答

正如您所怀疑的,对结果度量使用多重插补是有效的。在某些情况下,这很有用,但也可能存在风险。我考虑了所有协变量都完整且结果不完整的情况。

如果插补模型是正确的,我们将从插补数据中获得对参数估计的有效推论。如果缺失与在预测变量条件下(即在 MNAR 下)后的结果相关,则仅从完整案例中获得的推论实际上可能是错误的。因此,如果我们知道(或怀疑)数据是 MNAR,则插补很有用。

在 MAR 下,估算结果通常没有任何好处,并且对于少量的估算,由于模拟误差,结果甚至可能在某种程度上更具可变性。有一个重要的例外。如果我们可以访问一个不属于模型并且与结果高度相关的辅助完整变量,则插补可能比完整案例分析更有效,从而产生更精确的估计和更短的置信区间。发生这种情况的常见情况是,如果我们对每个人都有一个廉价的结果度量,而对一个子集有一个昂贵的度量。

在许多数据集中,缺失数据也出现在自变量中。在这些情况下,我们需要插补结果变量,因为需要插补版本来插补自变量。

估算结果数据非常常见,并且在考虑随机误差时会导致正确的推断。

听起来你正在做的是单一插补,通过在完整的案例分析下用条件平均值插补缺失值。您应该做的是多重插补,对于连续协变量,如果您追溯测量这些缺失值,您会观察到的随机误差。EM 算法以类似的方式工作,对一系列可能的观察结果进行平均。

当没有均值-方差关系时,单一插补给出了模型参数的正确估计,但它给出了偏向零的标准误差估计,从而夸大了 I 类错误率。这是因为如果你测量了这些因素,你会观察到的错误程度是“乐观的”。

多重插补是对条件均值插补迭代生成加性误差的过程,通过7或8次模拟插补,可以结合模型及其误差,得到模型参数及其标准误差的正确估计。如果您共同缺少协变量和结果,那么 SAS、STATA 和 R 中的软件通过链式方程称为多重插补,其中生成“完整”数据集(具有被视为固定和非随机的插补值的数据集),模型从每个完整数据集估计的参数,以及使用正确的数学形式组合它们的参数估计和标准误差(Van Buuren 论文中的详细信息)。

MI中的过程与您描述的过程之间的细微差别在于您没有考虑到使用估算数据估计结果的条件分布将取决于您估算某些因素的顺序这一事实。您应该已经根据MI中的结果估计了缺失协变量的条件分布,否则您将得到有偏差的参数估计。