BERT 在生产中

数据挖掘 阿帕奇火花 apache-hadoop 伯特
2022-01-19 11:49:59

我创建了一个 BERT 模型。该模型的部署方式有哪些?是否可以将它与 Spark、Hadoop 或 Docker 一起使用?

1个回答

您可以使用 Spark 应用它。没有理由不能在 Spark 作业中使用 Pytorch。只需在提交作业时将其添加为依赖项。Spark 的 pandas UDF 对于对大型模型进行评分非常有用,因为它们可以让您在小批量中评分。请参阅https://spark.apache.org/docs/3.0.0-preview/sql-pyspark-pandas-with-arrow.html#scalar-iterator

一个复杂的问题是您可以在 Spark 2.x 中使用 GPU,但不能将 GPU 分配为资源。所以你可能在一个 GPU 上有多个任务,需要稍微调整以减少争用。然而,Spark 3 将分配 GPU 资源。

Hadoop 不是运行计算的东西,除非您指的是已过时的 MapReduce,或者您指的是上面的 Spark。

Docker 也是一种选择;只需将您的评分代码装瓶并在集群上运行。在数据移动和访问方面,您并没有真正获得与在 Spark 中相同的帮助;全取决于你。但可以肯定的是,它可以工作。