我正在尝试构建一个可以识别几个关键字的实时简单音频识别。按照这个张量流教程,我能够训练一个简单的神经网络。目前的信号流是这样的
麦克风 --> 脉冲编码调制(PCM - 范围 [-1, 1])--> stfts --> 频谱图--> mel_spectrograms --> log_mel_spectrograms --> mfcc 的 --> 神经网络。
到目前为止,我只是从麦克风输入中获取数据并执行一些步骤并输入到神经网络。不执行任何类型的背景降噪或某种信号过滤技术。到目前为止,结果受到背景噪声(单通道采样频率 16000 Hz)的影响很大。
我是这个主题的新手,想知道您是否可以分享一些有价值的见解和技术/python 包,以丰富说话者的声音,然后再将其输入神经网络。