数据挖掘 - MLlib 是否必须使用分布式数据？ - 吾爱随笔录

MLlib 是否必须使用分布式数据？

数据挖掘机器学习 Python 大数据

2021-10-04 20:00:12

我是机器学习领域的新手，最近学习了基础知识，并使用 pandas、numpy、matplotlib、scikitlearn 等库在 python 中开发了各种算法。我开始通过分发 Bigdata 和使用 Apache Spark 的库 MLlib 来学习如何使用 Bigdata在其上加载和应用算法。那么在 Spark 上使用 MLlib 是唯一的方法，还是有其他方法可以在分布式数据上使用 pandas 和其他库？

1个回答

是的。有上百万种方法来设计解决方案。

您可以使用 pandas 进行数据整理，并通过并行 python 分发此任务。

我个人使用 python 进行分布式数据采集、数据整理和算法计算。这样我就获得了多机、多 CPU 和多 GPU 的能力。

如果您想一直使用 python，我建议您根据库记录所有不同的选项，然后按照开发版本中最活跃的版本或您最重视的任何标准对它们进行排序。

其它你可能感兴趣的问题

上一篇在 Kaggle 中竞争时避免硬件限制？下一篇建议实现前 N 个可能状态序列的类维特比算法