我有多个 zip 文件,其中包含两种类型的文件(A.csv 和 B.csv)
/data/jan.zip --> 包含 A.csv & B.csv
/data/feb.zip --> 包含 A.csv & B.csv
我想使用 pyspark 读取所有 zip 文件中所有 A.csv 文件的内容。
textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")
有人可以告诉我如何将 A.csv 文件的内容放入 RDD 中吗?
我有多个 zip 文件,其中包含两种类型的文件(A.csv 和 B.csv)
/data/jan.zip --> 包含 A.csv & B.csv
/data/feb.zip --> 包含 A.csv & B.csv
我想使用 pyspark 读取所有 zip 文件中所有 A.csv 文件的内容。
textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")
有人可以告诉我如何将 A.csv 文件的内容放入 RDD 中吗?
您需要确保已加载包spark-csv ;spark-shell例如,通过使用 flag调用--packages com.databricks:spark-csv_2.11:1.4.0。之后,您可以照常使用sc.textFile,或sqlContext.read.format("csv").load. 您可能需要使用csv.gz而不仅仅是zip; 不知道,没试过。
这个网站会帮助你。在名为“编写 Spark 应用程序”的主题中,他们描述了从 zip 文件夹中读取文件内容。干杯!