如何对单个单词进行语音识别

人工智能 神经网络 深度学习 语音识别
2021-10-19 07:57:54

我会向我的神经网络提供大约 2-3 秒的声音信号。我已经用一个词训练了我的网络,比如如果我说“Hello”,网络可能会判断是否说“Hello”,但是说“World”之类的其他词,它会说“Hello”没有说出来. 如果它是一个特定的命令或单词,我只想对声音进行分类。最好的方法是什么,我在 DNN 方面不是很先进,我只知道 NN 和 CNN,我想知道是否有一些研究论文或教程,或者需要一些关于工作的解释。

1个回答

如果您有固定长度的语音数据,则可以仅使用 CNN 检测内容。您可以将该问题视为二元分类(1如果口语正确,0否则)。

但首先,您需要使输入长度是固定的。例如,您使用 2 秒作为固定长度。如果录制的语音超过 2 秒,则需要对其进行裁剪,如果录制的语音小于 2 秒,则可以将其填充 0 值。

接下来,您可以使用原始数据(时域)使用某些特征提取器方法(FFT、MFCC 或 MFSC)转换数据然后,使用 CNN 对图像进行分类。您可以将声波的图形假设为 2D 图像。

但是,如果您的数据有多种长度,您可以结合 CNN 来检测每个音素,然后使用 RNN 或 HMM 将其组合为一个序列。您也可以在上述论文中阅读此方法。