我需要使用scikit-learn. 为了训练模型,我有一个包含 1000 万行特征的数据库表。问题是:解决这个问题的最佳方法是什么,我应该将 1000 万行加载到内存中,例如使用 numpy 或 pandas 还是有更好的方法来逐步加载数据?
大容量运行 scikit-learn
数据挖掘
Python
scikit-学习
熊猫
麻木的
2022-03-09 18:51:06
1个回答
从黄昏到其他模型等有多种可能性。
这是我最喜欢的 2 个,不要让你失去很多可能性:
www.h5py.org/ “它可以让你存储大量的数值数据,并轻松地从 NumPy 操作这些数据。例如,你可以分割成存储在磁盘上的数 TB 数据集,就好像它们是真正的 NumPy 数组一样。成千上万的数据集可以存储在单个文件中,根据需要进行分类和标记。”
尝试使用 Cousin 随机森林模型 ( light-gbm ) 在线学习。他具有在线学习能力。
其它你可能感兴趣的问题