如何预处理声学数据

数据挖掘 预处理
2022-02-21 08:28:18

我正在处理具有 2MHz 非常高的采样频率的声学数据,并且想要构建一个分类器。

我想知道预处理声学数据是否有任何经验法则。直接使用原始数据(时间信号)还是先构建频谱图并使用这些更好?

有论文说原始更好,也有论文说频谱图更好。在我看来,作者在撰写论文之前就已经有了首选的方法。我认为真正的比较是困难的。

我阅读了论文“深度学习及其在机器健康监测中的应用:一项调查”,其中对不同方法进行了研究。我查了他的参考资料,但作者似乎只是挑选原始或频谱图而没有解释。例如,在论文“音乐音频的端到端学习”中,首选 Dieleman 频谱图。“使用原始波形进行音乐自动标记的样本级深度卷积神经网络”中,他们声称其 1D 结构更好或至少可与 2D 架构相媲美。

就我个人而言,我对频谱图有更好的经验。

2个回答

至于论文“使用原始波形进行音乐自动标记的样本级深度卷积神经网络”,我可以给你一些关于这个问题的直觉,因为我和我的同事进行了实验。

总而言之,我建议您在您的情况下使用基于频谱图的方法。

我想指出两个原因,

首先,当采样率在 16kHz 到 22kHz 之间时,训练基于原始波形的架构比基于频谱图的模型花费大约 4 倍的时间。在您的情况下,采样率甚至是 22Mhz。我认为这将比具有类似性能的基于频谱图的模型花费更多的时间。

其次,为了获得训练有素的基于原始波形的模型,我们需要超过 50 小时的音频,因为该模型具有更多的参数和更深的层。在我看来,使用基于原始波形的模型的好处不是性能改进,而是生成模型。如果我们使用性能良好的基于​​原始波形的模型,当案例是生成模型时,我们不需要从频谱图中重建音频信号。这是我们进行报告实验的主要原因。

如果计算能力和内存随着当前趋势而提高,我们预计基于原始波形的模型将在不久的将来成为主流。但现在我认为基于频谱图的模型更方便,特别是对于工业应用。

我认为这取决于您的数据样本的特征以及您需要检测的内容。

如果您需要找到某个事件的开始和持续时间,原始数据可能会更好。

如果您寻找重复模式(心跳),频谱/频率数据可能会更好。