音乐/声音相似性比较在神经网络上可行吗?

人工智能 神经网络 深度学习 模式识别 语音识别 相似
2021-11-17 11:35:00

我想知道以下概念:

给定的神经网络获得两个音频输入(最好是音乐)并给出一个介于 0 和 1 之间的实数,它描述了第二个和第一个音轨之间的“相似性”。

就我对神经网络的理解而言,这个问题符合 NN 的概念,因为音乐中的模式识别可以帮助确定音频中的相似性和差异,参见语音识别。

然而,由于长而复杂的输入的性质,以及学习数据集的模糊性质(例如,Diana Ross “It's your move”和 The Vaporwave 传奇“Floral Shoppe”到底有多相似?0.9?0.6?其他?),这样的网络将非常缓慢且令人费解。

今天有可能建立和训练这样的模型吗?如果是,它会是什么样子?

1个回答

是的,这是可能的,即使最好的方法可能与神经网络不同。无论如何,您应该从音频中提取一些重要的特征(能量、起始、根频率等)。通常,会提取比实际需要更多的特征,然后通过某种算法(例如 PCA)选择最重要的特征。通过这种方式,您将获得一系列特征(例如 10 到 100 个特征),您可以使用这些特征来训练您的 NN。

请注意,NN 不会告诉您为什么两个音频相似,而只会告诉您它们是否相似。这是一个很大的缺点。相反,只要您对问题有更深入的了解,基于灰盒建模的算法(例如基于规则或案例的算法(可能使用模糊逻辑))可能会更有用。

参考资料及深化来源:帕多瓦大学SMC Lab教材