大数据集群兼容分布式预测模型

数据挖掘 机器学习 Python
2021-09-19 06:31:32

我可能会问一个愚蠢的问题,但我的问题是我可以使用一些在 hadoop 中扩展的库(不仅使用简单的并行处理)编写一个 python 程序(比如说一个分类器)。我感到困惑的原因是 1)scikit学习 python 代码不会在大数据中扩展。2) spark mlib 是用 scala 编写的,而不是用 python 编写的。3)虽然 h2o 是开源的,但我不认为它是用 python 编写的。

2个回答

Spark 确实有一个非常好的 Python API,请查看本教程

对于传统的 Hadoop 堆栈,看看mrjob,它可以让您用 Python 编写 MapReduce 作业并在多个平台上运行它们。

在检查 python xgboost 时,我发现这个开源项目的存在有助于创建可扩展的机器学习程序。应该值得探索。