如何开始理解音频和音乐分析

数据挖掘 音频识别
2022-03-03 07:47:53

我最近被分配使用 python libROSA库做一些工作。我在音频和音乐分析方面没有丰富的经验,而且 api 和 docs 似乎具有更高的理解水平。例如,hello world 示例说明如下:

  • 该示例以 OGG Vorbis 格式编码,
  • 变量 sr 包含 y 的采样率,即音频每秒的采样数。
  • 默认情况下,所有音频都混合为单声道并在加载时重新采样为 22050 Hz。

我是“为什么需要对音频进行编码?” 和“为什么你甚至需要采样?(我猜是模拟和数字)”和“为什么你需要混合成单声道?” “这甚至意味着什么,'混合'”?

有没有好书或网站可以帮助我对音频和音乐处理有一个基本的了解?

提前致谢

1个回答

要了解基础知识和一系列高级主题,请查看 Meinard Müller 的“音乐处理基础”(FMP)(亚马逊/随附网站)。还有一个网站上有许多 Jupyter Notebooks很好地展示了这本书的内容。FMP 不使用 librosa,但会教您理解 librosa 所需的所有概念。大多数演示的方法都是面向信号处理的。对于依赖机器学习的工作,您可能需要阅读最近的研究文献——ISMIR论文是一个很好的起点。

关于你提出的观点:

  • 就像图像(想想 JPEG、PNG 等)一样,音频以某种格式存储。OGG 只是另一种格式,如 WAVE 或 MP3。
  • 在从某种格式(如 OGG)解码音频后,您将获得原始样本,非常类似于图像位图中的点。人们通常为此使用PCM (librosa 确实如此)。
  • 大多数时候我们并不关心立体声,这就是为什么 librosa 默认简单地将立体声通道混合成一个单声道通道。此外,大多数时候我们不需要 CD 质量,即 44.1 kHz 的采样频率,因此 librosa 默认将音频下采样到 22.05 kHz。在某种程度上,它类似于通过降低分辨率来减小图像的大小。

祝你好运!