我正在尝试以伪分布式形式设置 Hadoop。所以我编辑了建议的 xml 文件。在文件yarn-site.xml中,我必须插入:
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
什么是“mapreduce_shuffle”选项?
我正在尝试以伪分布式形式设置 Hadoop。所以我编辑了建议的 xml 文件。在文件yarn-site.xml中,我必须插入:
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
什么是“mapreduce_shuffle”选项?
此mapreduce_shuffle配置文件中的 是Plugable Shuffle 和 Sort的一部分。Shuffle 和 Sort 是将映射器连接到化简器的东西。一个很好的图形表示如下(在该图中,随机播放称为“复制”):
Hadoop 架构允许自定义这些步骤:
可插入的 shuffle 和可插入排序功能允许用替代实现替换内置的 shuffle 和排序逻辑。示例用例是:使用 HTTP 以外的其他应用程序协议(例如 RDMA)将数据从 Map 节点转移到 Reducer 节点;或者用启用哈希聚合和限制 N 查询的自定义算法替换排序逻辑。
该mapreduce_shuffle参数在Hadoop Docs中提到,并且是此配置的默认值。