修剪音频文件中音乐的左尾

数据挖掘 无监督学习 k-nn 音频识别
2022-03-12 10:11:28

我有音频文件,其中大多数以相同的音乐开头,然后开始对话。我想修剪音乐的一部分(长度可以变化)。我没有标签,我可以使用现成的模型转录整个文件,但音乐本身包含导致误报的单词。但我知道要从音频中提取特征,例如 Mel 频谱图、音高等。文件开头的音乐可以通过查看频谱图或仅查看声波很容易注意到(请参见下图)。

我考虑过使用具有大量邻居的 knn,然后根据其值过滤音频。有没有更明显的方法?

谢谢!

海浪

光谱图

1个回答

最终,由于数据只包括电话,我注意到有一个“BIP”将谈话与音乐分开。所以我将它与文件进行卷积,并取得了比 k-means 和 GMMs 更好的结果。