目前,我正在处理一个包含 200 多个变量(准确地说是 238 个)和每个变量 290 个观察值(理论上)的大型数据集。该数据集缺少很多值,变量范围为 0-100%“缺失”。我最终将对这些数据执行逻辑回归,所以在我的 238 列中,我最多只使用十个左右。
然而,由于我的几乎所有列都缺少一些数据,我转向多重插补来填补空白(使用 MICE 包)。
我的问题是;鉴于我在缺失数据中有大量变化,我应该以多少百分比的缺失开始从 mouse() 函数中排除变量?
老鼠能很好地处理缺失 50% 值的变量吗?60%、70%、80%、90%呢?