将文件存储在 hdfs 中是否会为 Spark 并行化?

数据挖掘 大数据 阿帕奇火花 apache-hadoop
2022-03-07 07:16:37

对于 Spark 的 RDD 操作,数据必须是 RDD 的形状或使用以下方法并行化:

ParallelizedData = sc.parallelize(data)

我的问题是,如果我将数据存储在 HDFS 中,它是否会自动并行化,或者我应该使用上面的代码在 Spark 中使用数据?将数据存储在 HDFS 中是否使其具有 RDD 的形式?

1个回答

正如您可以在文档中看到的以下示例中看到的那样您可以直接从 HDFS 读取,而不会遇到太多麻烦。spark 会为你正确地并行化数据。

我们仅在您使用 Scala 本身构建的数据结构时使用并行化(例如 val 赋值或类似的东西)。