最能描述音乐的音频特征是什么?

数据挖掘 机器学习 特征提取 特征工程
2022-03-02 00:05:24

我正在研究音频流项目推荐系统的基于内容的过滤部分。

我首先使用带有音乐流派和 one-hot 编码的 k-mean 算法将音乐分类为不同的组。但是,为了获得更精确的结果,我想更改它并使用音频功能来代替模型。

所以我的问题是:
- 我的方法是否正确。
- 我可以从音频文件中提取的最相关的音频特征是什么。

谢谢你的回答。

编辑:
现在,我正在提取这些特征:

  • 音乐节奏
  • 过零率
  • 期间
  • 光谱质心
  • 光谱滚降
  • MFCC
  • 光谱带宽
  • 光谱对比

我想知道这些音频特征在何种程度上与“描述”音频提取相关。

2个回答

每个倒谱系数都可以被认为是定义音乐作品的最佳特征之一。

最著名的是 Mel Scale,我可以看到您已经在提取 MFCC,您可以开始了。尽管您应该提到您正在提取哪个 MFCC,但根据经验(一点点),前 15 个通常是最有用的,因为它们具有正值。您还可以在本质上更强大的 GFCC 上工作。

然后它们可用于获取频谱图等。

我建议不要使用 kNN,更喜欢 Random Forrest,而且音频信号需要大量预处理。DCT 和 STFT 是必须的。

您选择的功能是一个很好的起点,但与可能与音乐推荐系统最相关的功能相比,仍然(除了速度)相当“低级”。

Essentia 项目为音乐提供特征提取器,涵盖低级、中级和(自 2020 年 1 月以来)高级音乐特征描述符。它们的高级描述符包括:

  • 音乐流派
  • 舞厅音乐分类
  • 心情:快乐、悲伤、积极、放松、声学、电子、派对
  • 西方/非西方音乐
  • 调性/无调性
  • 跳舞能力
  • 人声/器乐
  • 性别(男、女歌手)
  • 音色(暗,亮)

中级和低级描述符涵盖了您提到的所有内容以及更多内容。这被打包到一个输出 JSON的命令行工具中。