在我运行 Dumbo 命令的节点上,作为输出生成的所有文件都在同一个节点上生成。例如,假设有一个名为 hvs 的节点,我在该节点上运行了脚本:
哑巴启动 matrix2seqfile.py -input hdfs://hm1/user/trainf1.csv -output hdfs://hm1/user/train_hdfs5.mseq -numreducetasks 25 -hadoop $HADOOP_INSTALL
当我检查我的文件系统时,我发现所有生成的文件都只累积在 hvs 节点中。
理想情况下,我希望文件分布在整个集群中——我的数据在整个集群中没有得到平衡。谁能告诉我如何解决这个问题?