数据挖掘 - Hadoop和输入信息分成多个部分 - 吾爱随笔录

Hadoop和输入信息分成多个部分

数据挖掘大数据 apache-hadoop

2022-02-15 09:56:53

Hadoop 将 MapReduce 作业的输入分成固定大小的块，称为输入拆分，或者只是拆分。Hadoop 为每个拆分创建一个映射任务，该任务为拆分中的每条记录运行用户定义的映射函数。拥有许多拆分意味着处理每个拆分所花费的时间与处理整个输入的时间相比要小。因此，如果我们并行处理拆分，当拆分较小时处理会更好地进行负载平衡

为什么？

1个回答

所有大数据生态系统都工作在称为并行处理的东西上。

我们必须处理 100gigs 的文件。如果我们不拆分文件，那么所有 100 个演出应该由单个 JVM（单个映射）处理。

如果我们将文件分成 1000 个部分，每个部分 100mb，那么我们可以使用不同的 JVM 处理每个部分，并在更短的时间内应用 map 函数。

MPP：大规模并行处理

其它你可能感兴趣的问题

上一篇如何使用 Excel 文件中的字典替换 Pandas 数组中的对象？下一篇交叉验证的训练数据集准确率高，但测试数据集准确率低