我目前正在尝试构建一个自动编码器来对音频数据进行降噪。但是我还没有找到任何好的文章来解释自动编码器的输入,即特征向量。与语音识别/文本编辑项目一样,众所周知,MFCC 作为神经网络的输入数据/特征向量表现良好。我想知道音频/声音数据的降噪自动编码器需要什么样的数据。
非常感谢您提前提供的帮助。
我目前正在尝试构建一个自动编码器来对音频数据进行降噪。但是我还没有找到任何好的文章来解释自动编码器的输入,即特征向量。与语音识别/文本编辑项目一样,众所周知,MFCC 作为神经网络的输入数据/特征向量表现良好。我想知道音频/声音数据的降噪自动编码器需要什么样的数据。
非常感谢您提前提供的帮助。
正如您所提到的,MFCC 功能是表示音频的最佳功能之一,因为它可以捕获音频剪辑中的时间和频率变化。您可以在以下链接中获得有关 MFCCS 功能的更多详细信息:http: //practicalcryptography.com/miscellaneous /机器学习/指南梅尔频率倒谱系数-mfccs/
您可以在 python 中导入 python_speech_features 并使用它们直接找到音频的 MFCC,这将是一个矩阵形式。
您可以将嘈杂的音频特征作为输入,将干净的音频特征作为输出提供给深度去噪自动编码器(DDAE),然后您可以在测试数据集上进行测试。
如果需要,您可以重建 DDAE 的预测 mfcc 输出并检查您的架构的工作范围。
您可以为此使用格里芬算法。有关重建的详细信息,请参阅下面的链接。 https://timsainb.github.io/spectrograms-mfccs-and-inversion-in-python.html