数据挖掘 - BERT 在生产中 - 吾爱随笔录

数据挖掘阿帕奇火花 apache-hadoop 伯特

2022-01-19 11:49:59

我创建了一个 BERT 模型。该模型的部署方式有哪些？是否可以将它与 Spark、Hadoop 或 Docker 一起使用？

1个回答

您可以使用 Spark 应用它。没有理由不能在 Spark 作业中使用 Pytorch。只需在提交作业时将其添加为依赖项。Spark 的 pandas UDF 对于对大型模型进行评分非常有用，因为它们可以让您在小批量中评分。请参阅https://spark.apache.org/docs/3.0.0-preview/sql-pyspark-pandas-with-arrow.html#scalar-iterator

一个复杂的问题是您可以在 Spark 2.x 中使用 GPU，但不能将 GPU 分配为资源。所以你可能在一个 GPU 上有多个任务，需要稍微调整以减少争用。然而，Spark 3 将分配 GPU 资源。

Hadoop 不是运行计算的东西，除非您指的是已过时的 MapReduce，或者您指的是上面的 Spark。

Docker 也是一种选择；只需将您的评分代码装瓶并在集群上运行。在数据移动和访问方面，您并没有真正获得与在 Spark 中相同的帮助；全取决于你。但可以肯定的是，它可以工作。

其它你可能感兴趣的问题