如何使用 sklean 管道处理逐行读取的数据

数据挖掘 scikit-学习 预处理
2022-02-27 22:04:54

我面临的问题是我的数据太大,我无法将其加载到数据框然后处理它。不过我真的很想用sklearn pipeline API,这样我以后写的那些子类操作就可以复用了。如果我逐行读取数据,有什么方法我仍然可以使用 sklearn 管道 API?

2个回答

Sklearn在其网站上有一些策略主要是,他们的一些估计器允许增量学习,这意味着您可以在训练期间以流方式提供数据。

要将它与管道一起使用,我建议您参考这篇StackOverflow 帖子您基本上必须在训练期间分解管道,然后在推理期间,您可以按原样使用它。

Dask可以帮助你。基本上,它使用稀疏数据来加载您的数据集,因此即使是比您的计算内存大得多的数据集也可以被加载。