数据挖掘 - 如何使用 spark（python）读取 zip 文件中的 CSV 文件的内容 - 吾爱随笔录

如何使用 spark（python）读取 zip 文件中的 CSV 文件的内容

数据挖掘 Python apache-hadoop 阿帕奇火花

2022-03-11 04:50:56

我有多个 zip 文件，其中包含两种类型的文件（A.csv 和 B.csv）

/data/jan.zip --> 包含 A.csv & B.csv
/data/feb.zip --> 包含 A.csv & B.csv

我想使用 pyspark 读取所有 zip 文件中所有 A.csv 文件的内容。

 textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")

有人可以告诉我如何将 A.csv 文件的内容放入 RDD 中吗？

2个回答

您需要确保已加载包spark-csv ；spark-shell例如，通过使用 flag调用--packages com.databricks:spark-csv_2.11:1.4.0。之后，您可以照常使用sc.textFile，或sqlContext.read.format("csv").load. 您可能需要使用csv.gz而不仅仅是zip; 不知道，没试过。

这个网站会帮助你。在名为“编写 Spark 应用程序”的主题中，他们描述了从 zip 文件夹中读取文件内容。干杯!

其它你可能感兴趣的问题

上一篇很少有处理各种问题的激活函数——神经网络下一篇基于图像数据集生成新图像