数据挖掘 - 大容量运行 scikit-learn - 吾爱随笔录

数据挖掘 Python scikit-学习熊猫麻木的

2022-03-09 18:51:06

我需要使用scikit-learn. 为了训练模型，我有一个包含 1000 万行特征的数据库表。问题是：解决这个问题的最佳方法是什么，我应该将 1000 万行加载到内存中，例如使用 numpy 或 pandas 还是有更好的方法来逐步加载数据？

1个回答

从黄昏到其他模型等有多种可能性。

这是我最喜欢的 2 个，不要让你失去很多可能性：

www.h5py.org/ “它可以让你存储大量的数值数据，并轻松地从 NumPy 操作这些数据。例如，你可以分割成存储在磁盘上的数 TB 数据集，就好像它们是真正的 NumPy 数组一样。成千上万的数据集可以存储在单个文件中，根据需要进行分类和标记。”
尝试使用 Cousin 随机森林模型 ( light-gbm ) 在线学习。他具有在线学习能力。

其它你可能感兴趣的问题