作为 Python 的 Dumbo API 的输出生成的数据未分发到集群的所有节点

数据挖掘 大数据 Python apache-hadoop 地图减少
2022-03-09 20:00:32

在我运行 Dumbo 命令的节点上,作为输出生成的所有文件都在同一个节点上生成。例如,假设有一个名为 hvs 的节点,我在该节点上运行了脚本:

哑巴启动 matrix2seqfile.py -input hdfs://hm1/user/trainf1.csv -output hdfs://hm1/user/train_hdfs5.mseq -numreducetasks 25 -hadoop $HADOOP_INSTALL

当我检查我的文件系统时,我发现所有生成的文件都只累积在 hvs 节点中。

理想情况下,我希望文件分布在整个集群中——我的数据在整个集群中没有得到平衡。谁能告诉我如何解决这个问题?

1个回答

在 hadoop etc 文件夹中,hdfs-site.xml 的复制单元数为 1。这就是为什么,所有文件都保存在一个节点上。我更改了它并解决了问题。