如何在 HDFS 中将 DataFrame 保存为 CSV?
我正在尝试这个:
df.groupBy("Product_ID").agg(collect_list($"Stock")).saveAsTextFile("PATH/results.csv")
如何在 HDFS 中将 DataFrame 保存为 CSV?
我正在尝试这个:
df.groupBy("Product_ID").agg(collect_list($"Stock")).saveAsTextFile("PATH/results.csv")
这不是 DataFrames API 的标准部分。您可以将其映射到 RDD,将行条目连接到字符串并保存,或者更灵活的方法是使用可以在此处找到的 DataBricks spark-csv 包。
如果它只是一列,您可以将其映射到 RDD 并调用.saveAsTextFile(filename)
你很近!你只是缺少一个.rdd!试试这个:
df.groupBy("Product_ID").agg(collect_list($"Stock")).rdd.saveAsTextFile("PATH/results.csv")
df.rdd.saveAsTextFile("xyz")是正确的答案