数据挖掘 - 数据预处理框架/库替代方案 - 吾爱随笔录

我目前正在研究一些即将部署到生产环境的 python 机器学习项目。因此，在我们的团队中，我们有兴趣按照 MLOps 原则以最“正确”的方式执行此操作。

具体来说，我目前正在研究数据预处理的步骤以及如何以稳健的方式实现它以防止训练服务偏差。我考虑过 Tensorflow 变换，在一次运行一些定义的预处理步骤之后，生成一个可以在训练后重用的图形工件。尽管使用它的缺点是需要坚持使用 Tensorflow 数据格式。有什么好的选择吗？

到目前为止，我发现的唯一类似的框架/库示例是 Keras 预处理层和 sklearn 预处理管道。我搜索了很多网站和博客，但仍然没有找到类似的讨论。