使用卷积神经网络处理 melspectrograms

数据挖掘 Python 音频识别
2022-02-21 00:56:09

我正在尝试使用卷积神经网络进行音频​​分类。有六个班。使用 librosa,我为一秒长的 .wav 音频文件创建了 melspectrograms。它返回 640x480 .jpg 文件。我现在的问题是如何进行输入,因为我认为它对于网络来说太大了。如果是这样,适当的解决方案是什么?大约60x60的东西?它甚至必须是二次的吗?

从我的角度来看的选项:

  1. 以较小的分辨率重新编码来自 librosa 的 melspectrograms
  2. 使用 cv2 并在将其传递给输入层之前简单地执行一个 cv2.resize() 。
  3. 保持分辨率不变,并引入更多卷积层。
  4. ?
2个回答

使用 librosa 中的默认设置时,1 秒音频文件的 mel 频谱图的尺寸应约为 43x128(时间 x 频带)。所以,如果你有一个 640x480 JPG 文件,那听起来就大错特错了。也许您正在使用结果图而不是使用 mel-spectrogram 数据?

保持分辨率不变,并引入更多卷积层。

这应该是下一步。两个主要原因:

  1. 这应该减少可训练参数的数量
  2. 模型可以学习更多抽象特征