Python + Spark(pyspark)的替代品有哪些?

数据挖掘 Python 阿帕奇火花 pyspark
2021-10-05 19:59:03

我喜欢 Python,也喜欢 Spark,但它们不能很好地结合在一起。特别是,

  1. 在 spark 中使用 python 函数非常困难(必须为 python 中的函数创建 JVM 绑定)
  2. pyspark很难调试,中间有py4j

所以我想知道是否有任何替代 pyspark 的替代方案可以原生支持 python 而不是通过适配器层?

参考

2个回答

尝试检查dask它是 Python 原生的分布式库,它使用 pandas 和 numpy。所以它就像使用带有一些包装器的熊猫来进行分布计算。

尝试并行 Python。https://www.parallelpython.com/

我将它用于可以扩展到多台机器的定制数据集成。

使用定制选项,您可以灵活地使用您喜欢的任何工具处理数据。

例如。数据帧的算法处理需要很长时间,但如果您使用 opencl 或其他 GPU 抽象库,如果您愿意重构和矢量化您的算法,则可以将处理时间缩短一半。

使用 Parallel Python 构建“集成模板”需要一段时间。但是一旦你拥有它就值得了。

您将能够构建许多集成,无论您是分发数据拉取任务、数据推送任务还是数据处理任务,定制策略都为您提供了选择和灵活性,而使用现成的集成框架可以紧密结合您与他们的产品。