扩展基于 scikit 堆栈的数据科学项目的最简单方法是什么?

数据挖掘 大数据 可扩展性
2022-02-28 16:22:15

对于所有使用此堆栈的数据科学家来说,这是一个问题:

  • Python
  • scikit-学习
  • scipy统计
  • matplotlib
  • 等等

我们正在寻找方法,通过做最少的工作,在上述堆栈规模中为非常大的数据集实施一个项目

反例是重写 Tensorflow 框架中的所有内容或使用与 Python 无关的行业工具。

2个回答

最简单的方法(取决于我们谈论的规模)是设置n_jobs=-1支持并行化的算法(例如随机森林、交叉验证、网格搜索)。这将利用您机器上的所有内核。如果这还不够好,您可能应该转向火花。

你一般不会。Scikit-learn 主要旨在帮助新的数据科学家快速熟悉数据科学

话虽如此,这里讨论了一些扩展策略:http: //scikit-learn.org/stable/modules/scaling_strategies.html

这包括使用核外模型、使用 PCA 减少数据大小以及各种增量学习器

除此之外,您最好的选择是使用功能更强大的计算机

另外,请记住,一旦模型经过训练,就可以进行腌制和共享。训练/测试通常是耗时/cpu 消耗的过程。所以,一旦你有了一个模型,你应该能够在不如训练/测试机器强大的机器上实现它