在 PySpark 中绘图?

数据挖掘 阿帕奇火花 pyspark 绘图 数据框
2021-09-17 03:40:42

我一直在寻找在 PySpark 中绘图的方法。

我找不到任何关于在 PySpark 中绘制 DataFrame 中的数据的资源。列出的唯一方法是:

  • 通过collect()将数据带入“本地”Python会话并绘图的方法
  • 通过toPandas()将数据转换为“本地”熊猫数据框的方法。

问题是这两者都是非常耗时的功能。有什么方法可以直接绘制驻留在 Spark 会话中的数据(而不是将其导入本地会话)?

1个回答

不,没有这种方法,我发现了。

原因是,绘图库在单台机器上运行,并且需要一个相当样本的数据集。Spark 上的数据分布在其集群之间,因此需要首先将其带到本地会话,从那里可以绘制数据。

这就是为什么需要诸如此类的方法的原因collect(), toPandas()