用python编写的可扩展的开源机器学习库

数据挖掘 机器学习 可扩展性 scikit-学习 阿帕奇火花
2022-03-06 21:10:12

我相信 sci kit learn 是用 python 编写的,但是不可扩展。Spark mlib 或 ml 是 scalabale 但用 scala 编写的。我正在寻找一个持续的努力,在 python 中构建机器学习库(在 github 左右可用)这样我就可以为此做出贡献。有没有人知道这种努力。

1个回答

除了你想贡献的事实之外,还有什么特别的原因吗?我之所以这么问,是因为您总是可以使用pyspark,即 Spark python API,它将 Spark 编程模型暴露给 Python。

特别是对于深度学习,有很多框架构建在Theano之上——这是一个用于涉及多维数组的数学表达式的 Python 库——比如 Lasagne,因此它们能够使用 GPU 进行密集训练。在 AWS 上获取带有 GPU 的 EC2 实例始终是一种选择。