我目前正在研究这篇论文,并试图了解输入和输出形状到底是什么。该论文描述了一个由使用 cnn-hmm 作为声学模型组成的声学模型。输入是可视化为频谱图的 mel-log 滤波器能量图像。该论文描述了一种电话识别方法,其中(据我所知)在这些频谱图上应用 CNN 并使用有限的权重共享方案应该有利于电话识别。
据我了解,输入形状是 9-15 帧,这似乎有点令人困惑,因为他们不考虑话语可能具有的音素数量或它们的长度,而只是“选择”一些帧操作..这个数字似乎与输出没有任何联系——或者我误解了什么?
对于输出
我们使用了 183 个目标类别标签,即 61 个电话的每个 HMM 有 3 个状态。解码后,原始的 61 个电话类别被映射到一组 39 个类别,如 [47] 中的最终评分。在我们的实验中,从训练集中估计的基于电话的二元语言模型被用于解码。为了准备 ANN 目标,在训练数据集上训练了一个单音素 HMM 模型,并使用它基于强制对齐生成状态级标签。
因此,输出分为 183 个类,被映射到 HMM 中,每个 61 个音素有 3 个状态,而 ANN 目标(我认为它是目标 = 后验概率)通过训练具有强制对齐的单音素 hmm。我不确定我是否理解这个过程。如果 ANN 目标是 CNN 应该瞄准/回归并最终根据状态分类的目标,为什么还要处理输入?.. 为什么不制作一个简单的 DNN 来进行回归/分类?
看起来改进在于这里使用了强制对齐,并且仅在单声道上?改进在哪里?
再说一次,我应该如何基于此链接输入形状和输出形状?这将要求音频文件具有一定的长度,从未指定音频的长度,所以我假设情况并非如此。