Hadoop 将 MapReduce 作业的输入分成固定大小的块,称为输入拆分,或者只是拆分。Hadoop 为每个拆分创建一个映射任务,该任务为拆分中的每条记录运行用户定义的映射函数。拥有许多拆分意味着处理每个拆分所花费的时间与处理整个输入的时间相比要小。因此,如果我们并行处理拆分,当拆分较小时处理会更好地进行负载平衡
为什么 ?
Hadoop 将 MapReduce 作业的输入分成固定大小的块,称为输入拆分,或者只是拆分。Hadoop 为每个拆分创建一个映射任务,该任务为拆分中的每条记录运行用户定义的映射函数。拥有许多拆分意味着处理每个拆分所花费的时间与处理整个输入的时间相比要小。因此,如果我们并行处理拆分,当拆分较小时处理会更好地进行负载平衡
为什么 ?
所有大数据生态系统都工作在称为并行处理的东西上。
我们必须处理 100gigs 的文件。如果我们不拆分文件,那么所有 100 个演出应该由单个 JVM(单个映射)处理。
如果我们将文件分成 1000 个部分,每个部分 100mb,那么我们可以使用不同的 JVM 处理每个部分,并在更短的时间内应用 map 函数。
MPP:大规模并行处理