我想知道以下概念:
给定的神经网络获得两个音频输入(最好是音乐)并给出一个介于 0 和 1 之间的实数,它描述了第二个和第一个音轨之间的“相似性”。
就我对神经网络的理解而言,这个问题符合 NN 的概念,因为音乐中的模式识别可以帮助确定音频中的相似性和差异,参见语音识别。
然而,由于长而复杂的输入的性质,以及学习数据集的模糊性质(例如,Diana Ross “It's your move”和 The Vaporwave 传奇“Floral Shoppe”到底有多相似?0.9?0.6?其他?),这样的网络将非常缓慢且令人费解。
今天有可能建立和训练这样的模型吗?如果是,它会是什么样子?