数据挖掘 - 将文件存储在 hdfs 中是否会为 Spark 并行化？ - 吾爱随笔录

数据挖掘大数据阿帕奇火花 apache-hadoop

2022-03-07 07:16:37

对于 Spark 的 RDD 操作，数据必须是 RDD 的形状或使用以下方法并行化：

ParallelizedData = sc.parallelize(data)

我的问题是，如果我将数据存储在 HDFS 中，它是否会自动并行化，或者我应该使用上面的代码在 Spark 中使用数据？将数据存储在 HDFS 中是否使其具有 RDD 的形式？

1个回答

正如您可以在文档中看到的以下示例中看到的那样，您可以直接从 HDFS 读取，而不会遇到太多麻烦。spark 会为你正确地并行化数据。

我们仅在您使用 Scala 本身构建的数据结构时使用并行化（例如 val 赋值或类似的东西）。

其它你可能感兴趣的问题