对于所有使用此堆栈的数据科学家来说,这是一个问题:
- Python
- scikit-学习
- scipy统计
- matplotlib
- 等等
我们正在寻找方法,通过做最少的工作,在上述堆栈规模中为非常大的数据集实施一个项目
反例是重写 Tensorflow 框架中的所有内容或使用与 Python 无关的行业工具。
对于所有使用此堆栈的数据科学家来说,这是一个问题:
我们正在寻找方法,通过做最少的工作,在上述堆栈规模中为非常大的数据集实施一个项目
反例是重写 Tensorflow 框架中的所有内容或使用与 Python 无关的行业工具。
最简单的方法(取决于我们谈论的规模)是设置n_jobs=-1支持并行化的算法(例如随机森林、交叉验证、网格搜索)。这将利用您机器上的所有内核。如果这还不够好,您可能应该转向火花。
你一般不会。Scikit-learn 主要旨在帮助新的数据科学家快速熟悉数据科学
话虽如此,这里讨论了一些扩展策略:http: //scikit-learn.org/stable/modules/scaling_strategies.html
这包括使用核外模型、使用 PCA 减少数据大小以及各种增量学习器
除此之外,您最好的选择是使用功能更强大的计算机
另外,请记住,一旦模型经过训练,就可以进行腌制和共享。训练/测试通常是耗时/cpu 消耗的过程。所以,一旦你有了一个模型,你应该能够在不如训练/测试机器强大的机器上实现它