我一直在寻找在 PySpark 中绘图的方法。
我找不到任何关于在 PySpark 中绘制 DataFrame 中的数据的资源。列出的唯一方法是:
- 通过
collect()
将数据带入“本地”Python会话并绘图的方法 - 通过
toPandas()
将数据转换为“本地”熊猫数据框的方法。
问题是这两者都是非常耗时的功能。有什么方法可以直接绘制驻留在 Spark 会话中的数据(而不是将其导入本地会话)?
我一直在寻找在 PySpark 中绘图的方法。
我找不到任何关于在 PySpark 中绘制 DataFrame 中的数据的资源。列出的唯一方法是:
collect()
将数据带入“本地”Python会话并绘图的方法toPandas()
将数据转换为“本地”熊猫数据框的方法。问题是这两者都是非常耗时的功能。有什么方法可以直接绘制驻留在 Spark 会话中的数据(而不是将其导入本地会话)?
不,没有这种方法,我发现了。
原因是,绘图库在单台机器上运行,并且需要一个相当样本的数据集。Spark 上的数据分布在其集群之间,因此需要首先将其带到本地会话,从那里可以绘制数据。
这就是为什么需要诸如此类的方法的原因collect(), toPandas()
。