数据挖掘 - 作为 Python 的 Dumbo API 的输出生成的数据未分发到集群的所有节点 - 吾爱随笔录

在我运行 Dumbo 命令的节点上，作为输出生成的所有文件都在同一个节点上生成。例如，假设有一个名为 hvs 的节点，我在该节点上运行了脚本：

哑巴启动 matrix2seqfile.py -input hdfs://hm1/user/trainf1.csv -output hdfs://hm1/user/train_hdfs5.mseq -numreducetasks 25 -hadoop $HADOOP_INSTALL

当我检查我的文件系统时，我发现所有生成的文件都只累积在 hvs 节点中。

理想情况下，我希望文件分布在整个集群中——我的数据在整个集群中没有得到平衡。谁能告诉我如何解决这个问题？