机器算法验证 - 缺失率和多重插补 - 吾爱随笔录

缺失率和多重插补

机器算法验证缺失数据数据插补

2022-03-05 03:19:47

使用多重插补 (MI) 时，是否存在最不可接受的限制？

例如，如果变量中的缺失值是 20% 的情况，而其他变量有缺失值但没有达到如此高的水平，我可以使用 MI 吗？

2个回答

从评论中，您确信您处于 MAR 或 MCAR 情况。那么多重插补至少是合理的。那么有多少缺失是可以处理的呢？这样想：

基本上，多重插补会使您的所有模型参数估计值不太确定，因为您可以使用插补模型预测缺失数据的准确度，这取决于需要插补的缺失量以及您使用的插补数。

因此，“太多”的缺失有多少取决于您愿意忍受多少增加的方差/不确定性。对您有用的数量可能是相对效率（ $RE$ ) 的 MI 分析。这取决于“缺失信息的比例”（不是简单的缺失率），通常称为 $\lambda$ ，以及插补的数量，通常称为 $m$ ，作为 $RE \approx 1/(1+\lambda/m)$ .

与其在此处生成缺失信息等的定义，您可以简单地阅读MI 常见问题解答，它非常清楚地说明了事情。从那里你会知道你是否想要处理原始来源：鲁宾等。

实际上，您可能应该尝试进行插补分析，看看它是如何工作的。

你可能会发现

鲁宾、唐纳德 B. 和纳撒尼尔申克。1986.“从具有可忽略不响应的简单随机样本中进行区间估计的多重插补”。美国统计协会杂志 81(394):366–374。

有帮助。

其它你可能感兴趣的问题

上一篇如何在 R 中模拟重复测量的多变量结果？下一篇如何定义什么是“样本”？