我正在为包含大约 20 个变量和 3,000 个观察值的数据集估算缺失值。大多数缺失数据值包含在 2 个变量中(一个有大约 20% 的缺失数据,另一个有 40%)。
我已经探索过使用 MICE 进行插补。然而,我的主要分析模型具有广泛的非线性,我最终将在我的分析中使用广义加法模型,以便我可以拟合非参数平滑项。不幸的是,MICE 不适合使用 GAM。
因此,我决定使用随机森林插补,这似乎会产生有效的插补。R 中的missForest
包看起来相对简单且易于使用。我能够得到我的估算,并且袋外错误相对较低。但是,它只产生一个估算数据集。
现在对这一数据集执行所有后续分析是否有效?我担心的是后续分析不会考虑估算中的不确定性。这是一个合理的担忧吗?如果是这样,我能做些什么吗?我没有太多运气找到关于人们在成功使用missForest
.