我正在处理具有 2MHz 非常高的采样频率的声学数据,并且想要构建一个分类器。
我想知道预处理声学数据是否有任何经验法则。直接使用原始数据(时间信号)还是先构建频谱图并使用这些更好?
有论文说原始更好,也有论文说频谱图更好。在我看来,作者在撰写论文之前就已经有了首选的方法。我认为真正的比较是困难的。
我阅读了论文“深度学习及其在机器健康监测中的应用:一项调查”,其中对不同方法进行了研究。我查了他的参考资料,但作者似乎只是挑选原始或频谱图而没有解释。例如,在论文“音乐音频的端到端学习”中,首选 Dieleman 频谱图。在“使用原始波形进行音乐自动标记的样本级深度卷积神经网络”中,他们声称其 1D 结构更好或至少可与 2D 架构相媲美。
就我个人而言,我对频谱图有更好的经验。