R 中计算成本低廉的插补技术

数据挖掘 机器学习 r 效率 缺失数据 数据插补
2021-10-07 20:32:06

我有一个大数据框(具体为 155257 x 21),只有几个缺失值。比如说,需要估算大约 2.16% 的值。这些值是浮点数。

由于数据集的大小以及在速度-准确性权衡中我没有太多损失的事实,我想使用一种比准确度快得多的方法。

运行missForest()需要几个小时,而 Hmisc 的impute()功能却不能令人满意。

在这种(或类似的)情况下,R 中的哪些函数可能有用?


<code>mice_plot</code> 输出

1个回答

看看 h20 包https://cran.r-project.org/web/packages/h2o/h2o.pdf

一切都在设计时考虑了并行化。我在 R 和 Scala 中的许多实现中都取得了巨大的成功。

如果您必须在 R 中执行此操作并且追求纯速度,我怀疑您会找到更快的东西。