数据预处理框架/库替代方案

数据挖掘 机器学习 Python 张量流 预处理 毛毛虫
2022-02-18 11:23:33

我目前正在研究一些即将部署到生产环境的 python 机器学习项目。因此,在我们的团队中,我们有兴趣按照 MLOps 原则以最“正确”的方式执行此操作。

具体来说,我目前正在研究数据预处理的步骤以及如何以稳健的方式实现它以防止训练服务偏差。我考虑过 Tensorflow 变换,在一次运行一些定义的预处理步骤之后,生成一个可以在训练后重用的图形工件。尽管使用它的缺点是需要坚持使用 Tensorflow 数据格式。有什么好的选择吗?

到目前为止,我发现的唯一类似的框架/库示例是 Keras 预处理层和 sklearn 预处理管道。我搜索了很多网站和博客,但仍然没有找到类似的讨论。

1个回答

尽可能最好地测量预印制所达到的最终结果是至关重要的。

因此,根据数据集和算法/模型,有很多不同的选项。

例如,有些模型需要数据归一化,有些模型需要对数或其他变换来改善最终结果。有时,您可能会缺少可能需要不确定范围的值。有时,您的 NA 值可能会被异常值替换。分类数据可以转换为二进制或缩放值。

有很多数据预处理书籍,但它们主要用于一般目的。

因此,我建议专注于您想要应用的算法/模型,并相应地调整预印制技术。如果您提供有关算法或模型的更多信息,则可以为您提供有关相关预处理技术的更多提示。