Hadoop Mapreduce(Java)和RHadoop mapreduce之间的区别

数据挖掘 机器学习 r apache-hadoop 地图减少
2022-02-15 11:07:24

我了解 Hadoop MapReduce 及其功能,但我对 R MapReduce 感到困惑。

我读过的一个区别是 R 使用了最大的 RAM。执行与 Hadoop 集成的 R 并行处理也是如此。

我的疑问是:

  1. R 可以做所有与统计、数学和数据科学相关的事情,但为什么要使用 R MapReduce?
  2. 通过使用 R MapReduce 而不是 Hadoop MapReduce,我可以完成任何新任务吗?如果是,请说明。
  3. 我们可以通过使用 R 和 Hadoop(直接)来完成任务,但是 MapReduce 在 R 中的重要性以及它与普通 MapReduce 有何不同?
1个回答

rhadoop(您感兴趣的部分现在称为rmr2)只是用 R 编写的 MapReduce 的客户端 API。您使用 R 包 API 调用 MapReduce,并将 R 函数发送给工作人员,由 R 解释器在本地执行. 但它在其他方面与 MapReduce 完全相同。

你可以用这种方式在 R 中调用任何你喜欢的东西,但是没有 R 函数本身是并行化的以这种方式使用 MapReduce。关键是你可以从 R 调用 M/R。我认为它不会让你做任何比这更神奇的事情。