数据挖掘 - 修剪音频文件中音乐的左尾 - 吾爱随笔录

我有音频文件，其中大多数以相同的音乐开头，然后开始对话。我想修剪音乐的一部分（长度可以变化）。我没有标签，我可以使用现成的模型转录整个文件，但音乐本身包含导致误报的单词。但我知道要从音频中提取特征，例如 Mel 频谱图、音高等。文件开头的音乐可以通过查看频谱图或仅查看声波很容易注意到（请参见下图）。

我考虑过使用具有大量邻居的 knn，然后根据其值过滤音频。有没有更明显的方法？

谢谢！