假设我有一个音频文件数据集,必须用于鲸鱼声音分类。我正在选择通过使用相应的频谱图(频率与时间图)图像将其视为图像分类问题的策略。下面显示的图像显示了一个示例,鲸鱼的叫声在频谱图的标签 B(B 是鲸鱼的一种,C 代表负样本)中的样子。
由于音频文件将具有不同的长度,因此预处理步骤将涉及用零填充所有较短长度的样本,以使所有文件具有固定长度。因此,所有这些较短样本的频谱图图像将在开头(或某处)有鲸鱼呼叫,而大部分频率时间区域只是来自填充的噪声。(上面的例子将音频样本分成一些帧(将它们分为正类和负类)并将它们标记为 B,C。)
如果我们这样使用频谱图图像,这将在很大程度上阻碍我们的 CNN 模型的泛化。
或者,如果我们将预处理的输出保存为 .npy 格式(二进制形式),我想这可能会被忽视(或不会?)。将图像保存为 .npy 格式然后在我们的模型中使用会产生什么后果
我不确定我的推理是否正确。谁能帮我吗?
