人工智能 - 我想确定给定歌曲与皇后歌曲的相似程度。我是否朝着正确的方向前进？ - 吾爱随笔录

我想确定给定歌曲与皇后歌曲的相似程度。我是否朝着正确的方向前进？

人工智能卷积神经网络音频处理

2021-11-08 06:18:50

我以前问过这个问题（@Reddit），人们在梅尔谱图上建议 CNN 比其他任何东西都多。这很棒。

但我有点坚持：将一些音乐数据标记为“女王”和“非女王”，并将其作为训练集。比如，下载 300 首歌曲，70 首女王（这就是他们所拥有的）和 230 首非女王，使用一些可以做到这一点的 python 包创建他们的梅尔谱图。

首先，300首歌曲够吗？

我对自己在做什么只有一个基本的了解。我需要一些帮助

1个回答

您正朝着正确的方向前进，以制作基于音频的分类器。这与提供两段音频之间的相似性度量并不完全相同，但它可以作为第一次尝试。您可以使用“此音频是皇后歌曲的概率”作为相似度的代理。

首先，300首歌曲够吗？

从头开始训练分类器还远远不够。在这种情况下，您的目标可能是 10,000 个样本，甚至高达 100 万个样本，具体取决于您希望分类器的复杂程度。

但是，您不一定需要找到那么多训练示例。相反，如果您可以找到与您正在使用的库兼容的音乐预训练音频分类器，并使用迁移学习，您可能会得到不错的结果。这是通过用你自己的神经网络替换最后几层训练的，并在你的数据上训练网络，只修改那些新的变化层。

从您的评论中：

声音相似，比如 Gnarles Barkley 更像 Alicia Keys 而不是 System of a Down

人声的音调是音乐录音之间可能发生变化的许多事情的一部分。只有几个示例可供使用的分类器将无法仅隔离您感兴趣的元素。此外，如果没有以“更相似”以您想要的方式有意义的方式明确标记的示例，您将无法控制神经网络是否将 Brian May 的吉他或 1970 年代的录音室设备识别为与 Freddie Mercury 的人声相比最容易识别的元素。

这些事情可能会限制您第一次尝试的有用性或准确性，但我不建议您立即考虑它们。当给定不同的输入时，您的基本想法应该产生具有有趣行为的东西。请注意，您在项目的第一次尝试中不会获得最先进的结果。

其它你可能感兴趣的问题

上一篇无监督学习中是否存在等价的偏差方差？下一篇为什么密集覆盖空间的训练点数量会随着维度呈指数增长？