使用 RNN 表示字符级语音识别的输出标签

数据挖掘 机器学习 rnn 语音转文本
2022-03-05 05:27:35

我看到了这个关于使用 LSTM 生成文本的教程在本教程中,作者通过将 100 个之前的字符作为输入,将下一个字符作为输出标签来训练网络。

我有兴趣尝试使用 LSTM 进行一些简单的语音识别。我可能会使用音频信号的 mfcc 特性作为输入数据,但最让我困惑的是如何表示输出标签。

我拥有的数据集是 VCTK 语料库,其中包含句子级录音及其转录。

在本教程中,输入向量之后的下一个字符用作输出标签。但是对于语音来说,如果不逐秒转录音频,就无法知道哪一部分语音产生了哪个字符。那么,我将如何表示这个问题的输出标签?

0个回答
没有发现任何回复~