MLlib 是否必须使用分布式数据?

数据挖掘 机器学习 Python 大数据
2021-10-04 20:00:12

我是机器学习领域的新手,最近学习了基础知识,并使用 pandas、numpy、matplotlib、scikitlearn 等库在 python 中开发了各种算法。我开始通过分发 Bigdata 和使用 Apache Spark 的库 MLlib 来学习如何使用 Bigdata在其上加载和应用算法。那么在 Spark 上使用 MLlib 是唯一的方法,还是有其他方法可以在分布式数据上使用 pandas 和其他库?

1个回答

是的。有上百万种方法来设计解决方案。

您可以使用 pandas 进行数据整理,并通过并行 python 分发此任务。

我个人使用 python 进行分布式数据采集、数据整理和算法计算。这样我就获得了多机、多 CPU 和多 GPU 的能力。

如果您想一直使用 python,我建议您根据库记录所有不同的选项,然后按照开发版本中最活跃的版本或您最重视的任何标准对它们进行排序。