我看到了这个关于使用 LSTM 生成文本的教程。在本教程中,作者通过将 100 个之前的字符作为输入,将下一个字符作为输出标签来训练网络。
我有兴趣尝试使用 LSTM 进行一些简单的语音识别。我可能会使用音频信号的 mfcc 特性作为输入数据,但最让我困惑的是如何表示输出标签。
我拥有的数据集是 VCTK 语料库,其中包含句子级录音及其转录。
在本教程中,输入向量之后的下一个字符用作输出标签。但是对于语音来说,如果不逐秒转录音频,就无法知道哪一部分语音产生了哪个字符。那么,我将如何表示这个问题的输出标签?