人工智能 - 制作一个用于音素分类的 CNN - 吾爱随笔录

人工智能机器学习卷积神经网络人工智能设计训练

2021-10-29 11:38:36

我正在为一个为期 10 周的课程项目制作一个简单的音素分类模型，但遇到了一个小问题。是否有可能创建一个需要 1 秒（最长音素为 0.2 秒，但大图像保留用于上下文）频谱图作为输入的模型？有人建议为音素分类创建一个 RNN，但你能建立一个纯 CNN 音素分类模型吗？任何回应都会很棒。

1个回答

是的，你可以，几年前我为单个阿拉伯语音素分类做了一个简单的 CNN。您可以使用频谱图或使用MFCC / MFSC作为特征，只要所有数据具有相同的大小（如果需要，使用填充或裁剪）。

如果你想结合一些音素来识别一个或更长的单词，你可能需要 RNN。

其它你可能感兴趣的问题