我以前问过这个问题(@Reddit),人们在梅尔谱图上建议 CNN 比其他任何东西都多。这很棒。
但我有点坚持:将一些音乐数据标记为“女王”和“非女王”,并将其作为训练集。比如,下载 300 首歌曲,70 首女王(这就是他们所拥有的)和 230 首非女王,使用一些可以做到这一点的 python 包创建他们的梅尔谱图。
首先,300首歌曲够吗?
我对自己在做什么只有一个基本的了解。我需要一些帮助
我以前问过这个问题(@Reddit),人们在梅尔谱图上建议 CNN 比其他任何东西都多。这很棒。
但我有点坚持:将一些音乐数据标记为“女王”和“非女王”,并将其作为训练集。比如,下载 300 首歌曲,70 首女王(这就是他们所拥有的)和 230 首非女王,使用一些可以做到这一点的 python 包创建他们的梅尔谱图。
首先,300首歌曲够吗?
我对自己在做什么只有一个基本的了解。我需要一些帮助
您正朝着正确的方向前进,以制作基于音频的分类器。这与提供两段音频之间的相似性度量并不完全相同,但它可以作为第一次尝试。您可以使用“此音频是皇后歌曲的概率”作为相似度的代理。
首先,300首歌曲够吗?
从头开始训练分类器还远远不够。在这种情况下,您的目标可能是 10,000 个样本,甚至高达 100 万个样本,具体取决于您希望分类器的复杂程度。
但是,您不一定需要找到那么多训练示例。相反,如果您可以找到与您正在使用的库兼容的音乐预训练音频分类器,并使用迁移学习,您可能会得到不错的结果。这是通过用你自己的神经网络替换最后几层训练的,并在你的数据上训练网络,只修改那些新的变化层。
从您的评论中:
声音相似,比如 Gnarles Barkley 更像 Alicia Keys 而不是 System of a Down
人声的音调是音乐录音之间可能发生变化的许多事情的一部分。只有几个示例可供使用的分类器将无法仅隔离您感兴趣的元素。此外,如果没有以“更相似”以您想要的方式有意义的方式明确标记的示例,您将无法控制神经网络是否将 Brian May 的吉他或 1970 年代的录音室设备识别为与 Freddie Mercury 的人声相比最容易识别的元素。
这些事情可能会限制您第一次尝试的有用性或准确性,但我不建议您立即考虑它们。当给定不同的输入时,您的基本想法应该产生具有有趣行为的东西。请注意,您在项目的第一次尝试中不会获得最先进的结果。