我喜欢 Python,也喜欢 Spark,但它们不能很好地结合在一起。特别是,
- 在 spark 中使用 python 函数非常困难(必须为 python 中的函数创建 JVM 绑定)
- pyspark很难调试,中间有py4j
所以我想知道是否有任何替代 pyspark 的替代方案可以原生支持 python 而不是通过适配器层?
我喜欢 Python,也喜欢 Spark,但它们不能很好地结合在一起。特别是,
所以我想知道是否有任何替代 pyspark 的替代方案可以原生支持 python 而不是通过适配器层?
尝试检查dask。它是 Python 原生的分布式库,它使用 pandas 和 numpy。所以它就像使用带有一些包装器的熊猫来进行分布计算。
尝试并行 Python。https://www.parallelpython.com/
我将它用于可以扩展到多台机器的定制数据集成。
使用定制选项,您可以灵活地使用您喜欢的任何工具处理数据。
例如。数据帧的算法处理需要很长时间,但如果您使用 opencl 或其他 GPU 抽象库,如果您愿意重构和矢量化您的算法,则可以将处理时间缩短一半。
使用 Parallel Python 构建“集成模板”需要一段时间。但是一旦你拥有它就值得了。
您将能够构建许多集成,无论您是分发数据拉取任务、数据推送任务还是数据处理任务,定制策略都为您提供了选择和灵活性,而使用现成的集成框架可以紧密结合您与他们的产品。