数据挖掘 - 如何开始理解音频和音乐分析 - 吾爱随笔录

如何开始理解音频和音乐分析

数据挖掘音频识别

2022-03-03 07:47:53

我最近被分配使用 python libROSA库做一些工作。我在音频和音乐分析方面没有丰富的经验，而且 api 和 docs 似乎具有更高的理解水平。例如，hello world 示例说明如下：

该示例以 OGG Vorbis 格式编码，
变量 sr 包含 y 的采样率，即音频每秒的采样数。
默认情况下，所有音频都混合为单声道并在加载时重新采样为 22050 Hz。

我是“为什么需要对音频进行编码？” 和“为什么你甚至需要采样？（我猜是模拟和数字）”和“为什么你需要混合成单声道？” “这甚至意味着什么，'混合'”？

有没有好书或网站可以帮助我对音频和音乐处理有一个基本的了解？

提前致谢

1个回答

要了解基础知识和一系列高级主题，请查看 Meinard Müller 的“音乐处理基础”(FMP)（亚马逊/随附网站）。还有一个网站上有许多 Jupyter Notebooks很好地展示了这本书的内容。FMP 不使用 librosa，但会教您理解 librosa 所需的所有概念。大多数演示的方法都是面向信号处理的。对于依赖机器学习的工作，您可能需要阅读最近的研究文献——ISMIR论文是一个很好的起点。

关于你提出的观点：

就像图像（想想 JPEG、PNG 等）一样，音频以某种格式存储。OGG 只是另一种格式，如 WAVE 或 MP3。
在从某种格式（如 OGG）解码音频后，您将获得原始样本，非常类似于图像位图中的点。人们通常为此使用PCM （librosa 确实如此）。
大多数时候我们并不关心立体声，这就是为什么 librosa 默认简单地将立体声通道混合成一个单声道通道。此外，大多数时候我们不需要 CD 质量，即 44.1 kHz 的采样频率，因此 librosa 默认将音频下采样到 22.05 kHz。在某种程度上，它类似于通过降低分辨率来减小图像的大小。

祝你好运！

其它你可能感兴趣的问题

上一篇如何确定哪些功能最重要？下一篇模拟多个时期（Python 或 R）的天气数据的方法？