缺失率和多重插补

机器算法验证 缺失数据 数据插补
2022-03-05 03:19:47

使用多重插补 (MI) 时,是否存在最不可接受的限制?

例如,如果变量中的缺失值是 20% 的情况,而其他变量有缺失值但没有达到如此高的水平,我可以使用 MI 吗?

2个回答

从评论中,您确信您处于 MAR 或 MCAR 情况。那么多重插补至少是合理的。那么有多少缺失是可以处理的呢?这样想:

基本上,多重插补会使您的所有模型参数估计值不太确定,因为您可以使用插补模型预测缺失数据的准确度,这取决于需要插补的缺失量以及您使用的插补数。

因此,“太多”的缺失有多少取决于您愿意忍受多少增加的方差/不确定性。对您有用的数量可能是相对效率(RE) 的 MI 分析。这取决于“缺失信息的比例”(不是简单的缺失率),通常称为λ,以及插补的数量,通常称为m, 作为RE1/(1+λ/m).

与其在此处生成缺失信息等的定义,您可以简单地阅读MI 常见问题解答,它非常清楚地说明了事情。从那里你会知道你是否想要处理原始来源:鲁宾等。

实际上,您可能应该尝试进行插补分析,看看它是如何工作的。

你可能会发现

鲁宾、唐纳德 B. 和纳撒尼尔申克。1986.“从具有可忽略不响应的简单随机样本中进行区间估计的多重插补”。美国统计协会杂志 81(394):366–374。

有帮助。