MFCC 是向检索系统表示音乐的最佳方法吗?

机器算法验证 机器学习 分类 信号处理 mfcc
2022-03-23 18:58:41

一种信号处理技术,即梅尔频率倒谱,通常用于从乐曲中提取信息,以用于机器学习任务。该方法给出了一个短期功率谱,并将系数用作输入。

在设计音乐检索系统时,这些系数被认为是乐曲的特征(显然不一定是唯一的,而是有区别的)。有没有更适合网络学习的特征?Elman 网络中使用的乐曲的低音进展这样的时变特征会更有效地工作吗?

哪些特征会形成一个足够广泛的集合,从而可以进行分类?

1个回答

我们曾经在这方面做了一些工作。我们提取的特征集在NIPS 研讨会论文中给出。我不得不承认我们无法复制该领域其他一些作者的结果,尽管对其中使用的数据集存在一些疑问(请注意,该领域作者使用的数据集往往是手工挑选的,没有发布出于版权原因,向公众开放,尽管并非总是如此)。本质上它们都是短期光谱特征也加入了自回归系数。我们正在研究类型的分类,我们知道人类可以在非常短的时间跨度(<1s)内完成(尽管准确性不高,并且不一致......),这验证了短期特征的使用. 如果您有兴趣做比典型的流派/艺术家/专辑/制作人分类更复杂的事情,那么您可能需要更多的长期特征,否则这些短期光谱特征往往表现最好。