对于在线语音识别,Transformer 能比 RNN 更好吗?

人工智能 循环神经网络 变压器 语音识别
2021-10-19 11:13:11

Transformer 是否有潜力取代 RNN 端到端的语音识别模型进行在线语音识别?这主要取决于准确性/延迟和部署成本,而不是培训成本。Transformer 能否支持低延迟在线用例,并具有与 RNN 模型相当的部署成本和更好的结果?

1个回答

有没有例子表明 Transformer 比 RNN 端到端模型(如用于语音识别的 RNN-transducer)具有更好的准确性?转换器可以用于需要低语音端到端延迟的在线语音识别吗?在未来大多数情况下,Transformer 是否有潜力取代 RNN 端到端模型进行语音识别?这可能主要取决于准确性和部署成本,而不是培训成本。

您可以在 wav2letter 上查看 Facebook 结果:

https://ai.facebook.com/blog/online-speech-recognition-with-wav2letteranywhere/

https://research.fb.com/publications/scaling-up-online-speech-recognition-using-convnets/

变形金刚在语音方面肯定有潜力,尤其是在与 NLP 中更快的计算方法(散列)结合使用时。

Transformer 的问题在于你需要大量的 GPU 来训练它们。