我面临的问题是我的数据太大,我无法将其加载到数据框然后处理它。不过我真的很想用sklearn pipeline API,这样我以后写的那些子类操作就可以复用了。如果我逐行读取数据,有什么方法我仍然可以使用 sklearn 管道 API?
如何使用 sklean 管道处理逐行读取的数据
数据挖掘
scikit-学习
预处理
2022-02-27 22:04:54
2个回答
Sklearn在其网站上有一些策略。主要是,他们的一些估计器允许增量学习,这意味着您可以在训练期间以流方式提供数据。
要将它与管道一起使用,我建议您参考这篇StackOverflow 帖子。您基本上必须在训练期间分解管道,然后在推理期间,您可以按原样使用它。
Dask可以帮助你。基本上,它使用稀疏数据来加载您的数据集,因此即使是比您的计算内存大得多的数据集也可以被加载。
其它你可能感兴趣的问题