数据挖掘 - 扩展基于 scikit 堆栈的数据科学项目的最简单方法是什么？ - 吾爱随笔录

数据挖掘大数据可扩展性

2022-02-28 16:22:15

对于所有使用此堆栈的数据科学家来说，这是一个问题：

我们正在寻找方法，通过做最少的工作，在上述堆栈规模中为非常大的数据集实施一个项目

反例是重写 Tensorflow 框架中的所有内容或使用与 Python 无关的行业工具。

2个回答

最简单的方法（取决于我们谈论的规模）是设置n_jobs=-1支持并行化的算法（例如随机森林、交叉验证、网格搜索）。这将利用您机器上的所有内核。如果这还不够好，您可能应该转向火花。

你一般不会。Scikit-learn 主要旨在帮助新的数据科学家快速熟悉数据科学

这包括使用核外模型、使用 PCA 减少数据大小以及各种增量学习器

除此之外，您最好的选择是使用功能更强大的计算机

另外，请记住，一旦模型经过训练，就可以进行腌制和共享。训练/测试通常是耗时/cpu 消耗的过程。所以，一旦你有了一个模型，你应该能够在不如训练/测试机器强大的机器上实现它

其它你可能感兴趣的问题