大容量运行 scikit-learn

数据挖掘 Python scikit-学习 熊猫 麻木的
2022-03-09 18:51:06

我需要使用scikit-learn. 为了训练模型,我有一个包含 1000 万行特征的数据库表。问题是:解决这个问题的最佳方法是什么,我应该将 1000 万行加载到内存中,例如使用 numpy 或 pandas 还是有更好的方法来逐步加载数据?

1个回答

从黄昏到其他模型等有多种可能性。

这是我最喜欢的 2 个,不要让你失去很多可能性:

  1. www.h5py.org/ “它可以让你存储大量的数值数据,并轻松地从 NumPy 操作这些数据。例如,你可以分割成存储在磁盘上的数 TB 数据集,就好像它们是真正的 NumPy 数组一样。成千上万的数据集可以存储在单个文件中,根据需要进行分类和标记。”

  2. 尝试使用 Cousin 随机森林模型 ( light-gbm ) 在线学习。他具有在线学习能力。