我正在研究一种用于训练语音数据神经网络的数据增强方法。目前我有两个版本的增强。
第一种方法通过获取音频文件并混合一组噪声文件来工作。
第二种方法通过将音频文件与另一个音频文件进行卷积来增强房间响应等内容。
一旦我有了这些组合,我就会通过我的 MFCC 提取器运行它们,并将 MFCC 传递给神经网络训练。
然而,这对重复加载音频文件非常占用磁盘空间。
磁盘密集程度较低的将能够在内存中执行组合。
有没有办法我可以采用 2 组 MFCC 并将它们组合在一起,从而获得与混合或卷积 2 个基本音频信号相同的结果?
换句话说,有可能在 MFCC 空间中对信号进行卷积或混合吗?