人工智能 - 对于在线语音识别，Transformer 能比 RNN 更好吗？ - 吾爱随笔录

对于在线语音识别，Transformer 能比 RNN 更好吗？

人工智能循环神经网络变压器语音识别

2021-10-19 11:13:11

Transformer 是否有潜力取代 RNN 端到端的语音识别模型进行在线语音识别？这主要取决于准确性/延迟和部署成本，而不是培训成本。Transformer 能否支持低延迟在线用例，并具有与 RNN 模型相当的部署成本和更好的结果？

1个回答

有没有例子表明 Transformer 比 RNN 端到端模型（如用于语音识别的 RNN-transducer）具有更好的准确性？转换器可以用于需要低语音端到端延迟的在线语音识别吗？在未来大多数情况下，Transformer 是否有潜力取代 RNN 端到端模型进行语音识别？这可能主要取决于准确性和部署成本，而不是培训成本。

您可以在 wav2letter 上查看 Facebook 结果：

https://ai.facebook.com/blog/online-speech-recognition-with-wav2letteranywhere/

https://research.fb.com/publications/scaling-up-online-speech-recognition-using-convnets/

变形金刚在语音方面肯定有潜力，尤其是在与 NLP 中更快的计算方法（散列）结合使用时。

Transformer 的问题在于你需要大量的 GPU 来训练它们。

其它你可能感兴趣的问题

上一篇最近有哪些人工智能软件系统和研究论文接近 J. Pitrat 的想法？下一篇对比学习背后的直觉是什么？