在 AWS Lambda 上部署 ML/深度学习以进行长时间训练,而不仅仅是推理

数据挖掘 机器学习 深度学习 aws-lambda
2022-03-12 04:03:05

无服务器技术可用于将 ML 模型部署到生产环境,因为如果部署包大小过大(或从源代码构建并去除不需要的依赖项),则可以压缩。

但也有部署 ML 进行训练的用例,而不仅仅是推理。例如,如果一家公司希望允许高级用户从前端重新训练模型。

鉴于训练时间长,这对 Lambda 可行吗?

而延迟不会是问题(冷启动延迟很好),运行时间可能会相当长(小时)。

1个回答

我使用 ECS (Fargate) 来训练模型,重新训练触发器可能是 ECS 服务的启动。虽然 ECS 有一点延迟,但它可以很好地处理较长的运行时间。

然后,您可以通过 lambda 为模型提供服务。