我对可以使用哪些技术和算法来解决以下问题感兴趣:
我有一个音频样本数据库,特别是各种歌曲的现场表演。我有大约十几首歌曲,对于每首歌曲,我又有大约十二首歌曲表演的样本。
我希望通过为每首歌曲提供多个样本,可以更好地“锁定”歌曲的一般特征并滤除噪音和表演之间的差异。这些是现场表演,每个样本都有点不同,有些捕捉的质量比其他的好(直接来自声音专家而不是人群中的电话录音),有些歌曲有插曲,错误的开始(吉他手忘记打开放大器),开始太晚,结束太早……
现在,除了这个数据库之外,我接下来要做的是当前正在播放的歌曲的实时提要,我有兴趣使用 ML 找出最有可能是实时提要的歌曲。我看到这一点的方式可能是继续捕获实时提要,因此将其与现有示例数据库的特征匹配的变化会增加,或者如果不是,则定期切割固定大小的块可能更实用可以使用这样的实时提要。
我有兴趣找出最常见/最可靠的方法来查找最有可能是现场音频的歌曲,以及最重要的是歌曲中的哪个位置是当前的现场提要。