数据挖掘 - 使用 RNN 表示字符级语音识别的输出标签 - 吾爱随笔录

我看到了这个关于使用 LSTM 生成文本的教程。在本教程中，作者通过将 100 个之前的字符作为输入，将下一个字符作为输出标签来训练网络。

我有兴趣尝试使用 LSTM 进行一些简单的语音识别。我可能会使用音频信号的 mfcc 特性作为输入数据，但最让我困惑的是如何表示输出标签。

我拥有的数据集是 VCTK 语料库，其中包含句子级录音及其转录。

在本教程中，输入向量之后的下一个字符用作输出标签。但是对于语音来说，如果不逐秒转录音频，就无法知道哪一部分语音产生了哪个字符。那么，我将如何表示这个问题的输出标签？