您能否对非随机缺失的数据 (MNAR) 执行多重插补?

机器算法验证 回归 数据插补
2022-03-24 05:19:57

有没有办法确定您的数据是 MNAR、MAR 还是 MCAR?

并且在执行多重插补时,即使只有 1 或 2 个变量有缺失值,您是否应该包括所有预测变量?(SPSS)

一些上下文:

我正在运行多元逻辑回归,其中我的一个变量有近 20% 的缺失值。我通过 SPSS 进行了缺失模式分析,发现我的数据满足单调性假设。但是,我不知道我的数据是 MNAR、MAR 还是 MCAR。我怀疑 MNAR 或 MAR,因为它是调查数据,参与者被允许拒绝回答。我可以大胆猜测,但我想知道是否有我可以使用的统计测试/过程来告诉我我的数据是 MNAR 还是 MAR。

同样,一旦我运行我的 MI 并构建了我的逻辑模型,我如何决定是使用通过列表删除排除所有缺失值的模型还是使用我的估算模型更好?我是否查看 Beta 系数、标准误差、模型拟合的变化?

1个回答

有没有办法确定您的数据是 MNAR、MAR 还是 MCAR?

有 Little's MCAR 测试,它可以评估您的缺失是否是 MCAR。更多信息可以第 12 页找到。据我所知,没有可用的测试可以区分 MAR 和 MNAR。在实践中,我会说很多人只是假设 MAR,因为 NMAR 的治疗非常困难。但是,可以在此处找到有关 MNAR 的适当方法的一些信息。

并且在执行多重插补时,即使只有 1 或 2 个变量有缺失值,您是否应该包括所有预测变量?

这在很大程度上取决于您的具体数据。对于由少数变量组成的数据,使用所有变量通常是一种好方法。对于较大的数据,您通常应该进行变量选择,主要是由于计算原因并排除嘈杂的预测变量(请参阅下面的 IWS 评论)。您可以在第 128 页上找到一些指导原则。应将 3 组变量包含在插补模型中:用于稍后分析插补数据的变量、与缺失结构相关的变量以及强变量您要估算的变量的预测变量。

同样,一旦我运行我的 MI 并构建了我的逻辑模型,我如何决定是使用通过列表删除排除所有缺失值的模型还是使用我的估算模型更好?

如果做得好,最好使用估算数据,因为您可以保留更大的数据集,并且最终能够减少由缺失导致的偏差。