我将音频编码为梅尔谱图,并将这些梅尔谱图用作我的深度学习模型(Inception-ResNet V2)的输入。输入图像的大小为 256 X 256,由 128 X 64 频谱图(128 melbands)和零填充组成。样本输入:
我正在使用LIME来可视化梅尔谱图的重要区域。在一些梅尔谱图中,LIME 将填充区域标记为重要,就像在这张图片中一样。
那么,这是因为学习不佳而发生的,还是 LIME 在遇到填充区域时出现的真正问题?
我将音频编码为梅尔谱图,并将这些梅尔谱图用作我的深度学习模型(Inception-ResNet V2)的输入。输入图像的大小为 256 X 256,由 128 X 64 频谱图(128 melbands)和零填充组成。样本输入:
我正在使用LIME来可视化梅尔谱图的重要区域。在一些梅尔谱图中,LIME 将填充区域标记为重要,就像在这张图片中一样。
那么,这是因为学习不佳而发生的,还是 LIME 在遇到填充区域时出现的真正问题?
向神经网络提供 75% 的不相关数据(零填充)似乎不太理想,无论是在计算效率低下还是因为它使您的模型可能容易受到这些数据的影响。
我会考虑使用 128x128 输入输入格式的较小模型(例如:MobileNet)。您可以将您现在拥有的梅尔谱图从 128x64 -> 128x128 放大,或者提取 128 长的窗口(可能调整 FFT/跳跃大小以使窗口及时覆盖相同的区域)。