如何使用 TPU 进行实时低延迟推理?

人工智能 自然语言处理 张量流 变压器 谷歌 推理
2021-11-13 01:06:55

我广泛使用谷歌的 Cloud TPU 硬件,使用 Tensorflow 来训练模型和推理,但是,当我运行推理时,我会大批量进行。TPU 在运行推理之前需要大约 3 分钟预热。但是当我阅读官方 TPU FAQ时,它说我们可以使用 TPU 进行实时推理。它说延迟是 10 毫秒,这对我来说已经足够快了,但我不知道如何编写代码来执行此操作,因为每次我想传递一些东西进行推理时,我都必须重新启动 TPU。

我的目标是在 TPU 上实时运行大型基于 Transformer 的语言模型。我猜想 TPU 是解决这个问题的理想选择。甚至谷歌似乎已经这样做了

引用官方 TPU 常见问题解答

对单批输入执行推理并等待结果当前至少有 10 毫秒的开销,这对于低延迟服务可能是有问题的。

0个回答
没有发现任何回复~