使用什么技术来识别音频样本在较长音频样本中的位置?

数据挖掘 音频识别
2022-02-16 17:45:18

我对可以使用哪些技术和算法来解决以下问题感兴趣:

我有一个音频样本数据库,特别是各种歌曲的现场表演。我有大约十几首歌曲,对于每首歌曲,我又有大约十二首歌曲表演的样本。

我希望通过为每首歌曲提供多个样本,可以更好地“锁定”歌曲的一般特征并滤除噪音和表演之间的差异。这些是现场表演,每个样本都有点不同,有些捕捉的质量比其他的好(直接来自声音专家而不是人群中的电话录音),有些歌曲有插曲,错误的开始(吉他手忘记打开放大器),开始太晚,结束太早……

现在,除了这个数据库之外,我接下来要做的是当前正在播放的歌曲的实时提要,我有兴趣使用 ML 找出最有可能是实时提要的歌曲。我看到这一点的方式可能是继续捕获实时提要,因此将其与现有示例数据库的特征匹配的变化会增加,或者如果不是,则定期切割固定大小的块可能更实用可以使用这样的实时提要。

我有兴趣找出最常见/最可靠的方法来查找最有可能是现场音频的歌曲,以及最重要的是歌曲中的哪个位置是当前的现场提要。

1个回答

在第一步中,我认为您应该从离散化您的歌曲波形开始,然后对每个块进行傅立叶变换(例如,您可以使用 numpy numpy.fft())。链接可能会有所帮助。之后,您可以尝试序列模式识别模型。