对于 Spark 的 RDD 操作,数据必须是 RDD 的形状或使用以下方法并行化:
ParallelizedData = sc.parallelize(data)
我的问题是,如果我将数据存储在 HDFS 中,它是否会自动并行化,或者我应该使用上面的代码在 Spark 中使用数据?将数据存储在 HDFS 中是否使其具有 RDD 的形式?
对于 Spark 的 RDD 操作,数据必须是 RDD 的形状或使用以下方法并行化:
ParallelizedData = sc.parallelize(data)
我的问题是,如果我将数据存储在 HDFS 中,它是否会自动并行化,或者我应该使用上面的代码在 Spark 中使用数据?将数据存储在 HDFS 中是否使其具有 RDD 的形式?
正如您可以在文档中看到的以下示例中看到的那样,您可以直接从 HDFS 读取,而不会遇到太多麻烦。spark 会为你正确地并行化数据。
我们仅在您使用 Scala 本身构建的数据结构时使用并行化(例如 val 赋值或类似的东西)。