我正在尝试使用卷积神经网络进行音频分类。有六个班。使用 librosa,我为一秒长的 .wav 音频文件创建了 melspectrograms。它返回 640x480 .jpg 文件。我现在的问题是如何进行输入,因为我认为它对于网络来说太大了。如果是这样,适当的解决方案是什么?大约60x60的东西?它甚至必须是二次的吗?
从我的角度来看的选项:
- 以较小的分辨率重新编码来自 librosa 的 melspectrograms
- 使用 cv2 并在将其传递给输入层之前简单地执行一个 cv2.resize() 。
- 保持分辨率不变,并引入更多卷积层。
- ?