我通常在使用 Scikit-Learn 拟合估计器之前进行预处理。我的最新项目使用的数据比我过去使用的要多得多,虽然我知道我可以使用 Keras using.fit_generator()或 sklearn using在线学习.partial_fit(),但我对如何执行分类编码步骤感到有点茫然这样的场景。显然,OrdinalEncoder 需要了解功能中每个可能的值才能完全适合自己……但我不能给出它,因为我无法将数据加载到内存中。
我没有尝试过,但有可能一次加载一个分类特征并在该数据上训练一个编码器,然后从内存中删除它并加载下一个特征来训练另一个编码器。这似乎很笨拙,尽管实际上没有任何理由像分类编码器这样的东西不能以迭代方式部分学习类别,但我在 sklearn 中找不到任何可以适应这种情况的东西。
预处理数据是否没有等效的“在线学习”?