制作一个用于音素分类的 CNN

人工智能 机器学习 卷积神经网络 人工智能设计 训练
2021-10-29 11:38:36

我正在为一个为期 10 周的课程项目制作一个简单的音素分类模型,但遇到了一个小问题。是否有可能创建一个需要 1 秒(最长音素为 0.2 秒,但大图像保留用于上下文)频谱图作为输入的模型?有人建议为音素分类创建一个 RNN,但你能建立一个纯 CNN 音素分类模型吗?任何回应都会很棒。

1个回答

是的,你可以,几年前我为单个阿拉伯语音素分类做了一个简单的 CNN您可以使用频谱图或使用MFCC / MFSC作为特征,只要所有数据具有相同的大小(如果需要,使用填充或裁剪)。

如果你想结合一些音素来识别一个或更长的单词,你可能需要 RNN。