如何使用 spark(python)读取 zip 文件中的 CSV 文件的内容

数据挖掘 Python apache-hadoop 阿帕奇火花
2022-03-11 04:50:56

我有多个 zip 文件,其中包含两种类型的文件(A.csv 和 B.csv)

/data/jan.zip --> 包含 A.csv & B.csv
/data/feb.zip --> 包含 A.csv & B.csv

我想使用 pyspark 读取所有 zip 文件中所有 A.csv 文件的内容。

 textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")

有人可以告诉我如何将 A.csv 文件的内容放入 RDD 中吗?

2个回答

您需要确保已加载包spark-csv ;spark-shell例如,通过使用 flag调用--packages com.databricks:spark-csv_2.11:1.4.0之后,您可以照常使用sc.textFile,或sqlContext.read.format("csv").load. 您可能需要使用csv.gz而不仅仅是zip; 不知道,没试过。

这个网站会帮助你。在名为“编写 Spark 应用程序”的主题中,他们描述了从 zip 文件夹中读取文件内容。干杯!