Transformer 是否有潜力取代 RNN 端到端的语音识别模型进行在线语音识别?这主要取决于准确性/延迟和部署成本,而不是培训成本。Transformer 能否支持低延迟在线用例,并具有与 RNN 模型相当的部署成本和更好的结果?
对于在线语音识别,Transformer 能比 RNN 更好吗?
人工智能
循环神经网络
变压器
语音识别
2021-10-19 11:13:11
1个回答
有没有例子表明 Transformer 比 RNN 端到端模型(如用于语音识别的 RNN-transducer)具有更好的准确性?转换器可以用于需要低语音端到端延迟的在线语音识别吗?在未来大多数情况下,Transformer 是否有潜力取代 RNN 端到端模型进行语音识别?这可能主要取决于准确性和部署成本,而不是培训成本。
您可以在 wav2letter 上查看 Facebook 结果:
https://ai.facebook.com/blog/online-speech-recognition-with-wav2letteranywhere/
https://research.fb.com/publications/scaling-up-online-speech-recognition-using-convnets/
变形金刚在语音方面肯定有潜力,尤其是在与 NLP 中更快的计算方法(散列)结合使用时。
Transformer 的问题在于你需要大量的 GPU 来训练它们。