数据挖掘 - R 中计算成本低廉的插补技术 - 吾爱随笔录

数据挖掘机器学习 r 效率缺失数据数据插补

2021-10-07 20:32:06

我有一个大数据框（具体为 155257 x 21），只有几个缺失值。比如说，需要估算大约 2.16% 的值。这些值是浮点数。

由于数据集的大小以及在速度-准确性权衡中我没有太多损失的事实，我想使用一种比准确度快得多的方法。

运行missForest()需要几个小时，而 Hmisc 的impute()功能却不能令人满意。

在这种（或类似的）情况下，R 中的哪些函数可能有用？

1个回答

一切都在设计时考虑了并行化。我在 R 和 Scala 中的许多实现中都取得了巨大的成功。

如果您必须在 R 中执行此操作并且追求纯速度，我怀疑您会找到更快的东西。

其它你可能感兴趣的问题