数据科学管道与普通 CD/CL

数据挖掘 机器学习 数据科学模型 管道 自动化
2021-10-08 06:42:13

数据科学特定 CI/CD(kubeflow、Algo、TFX、mlflow、sagemaker 管道)与已经烘焙的更通用的风格相比有什么优势:Jenkins、Bamboo、Airflow、Google Cloud Build……

我的猜测是,数据科学提供了更多关于常见 ML 操作的结构,并且针对训练、部署、并行执行和在模型上运行推理所需的计算和内存进行了更好的优化?

1个回答

TData 科学管道旨在管理端到端数据生命周期(例如,清理数据、拟合模型和服务模型)。

CI/CD 管道是围绕常见任务(例如,运行测试套件)自动化的更通用的软件工程工具。

使用数据科学管道的优点是管道已经具有用于常见数据科学任务的原语。缺点是工具通常不成熟,需要用户遵守工具建立的工作流程。

一般来说,这两个系统都没有针对计算或内存进行优化。他们只是代码运行者。代码或平台必须针对计算或内存进行优化。

这些系统有时可以并行化易于并行化的代码部分。例如,服务模型通常对不同的用户是独立的。