信息处理 - 音频信号处理初学者的学习路线图 - 吾爱随笔录 - 问答

音频信号处理初学者的学习路线图

信息处理声音的

2022-01-11 05:07:16

我想开始学习音频信号处理。网上有很多书籍和学术论文，所有这些似乎都跳过了该主题的基础知识。

我想知道一个粗略的路线图，可以这么说，为了成功学习音频信号处理。

我读过微积分是开始信号分析之前的第一步。

在我看来，音频信号分析只是所需整体知识的一部分。其他主题是音乐理论、音频工程和编程。

如果我可以请具有这方面知识的人提出可能的步骤，以了解如何分析和操作/创建音频信号。

2个回答

我建议看看Julius O. Smith III 教授的物理音频信号处理。它可以在线获得，也可以通过亚马逊的按需打印服务购买。

特别是，丛书概述中的描述可能是值得的。

在此处输入图像描述

如果不首先了解音频的本质以及数字化表示音频的各种方式是什么，我认为深入研究 DFT / FFT / IIR / FIR 和小波的复杂性没有任何意义。

什么是一般音频（在空气中，而不是在水或其他材料中）：

音频由声压波组成
它们导致空气压缩和稀薄
这些波从源点向外传播
波浪会相互干扰，导致波峰和波谷
波可以被材料吸收和反射

音频如何以电气方式表示：

麦克风和前置放大器将声压波转换为电信号
通常，此信号具有正电压和负电压（如交流电压）
磁带在它们出现时存储这些差异，因此术语模拟
当输入信号的强度等于系统的极限时会发生饱和（无法准确表示电压的任何增加）
当输入信号高于系统可以表示的信号时发生削波，因此信号被削波（或在末端被截断）

音频如何以数字方式表示：

必须首先使用 ADC（模数转换器）对音频进行采样
采样包括定期对音频信号进行电测量
这个周期称为采样率，它决定了可以表示的最高频率（奈奎斯特极限）
奈奎斯特极限是采样率/2（越接近极限，信号的表现就越差）
比特范围决定了本底噪声，（16 位为-96dB，8 位为-48dB）
单个 16 位音频样本可以是 -32768 到 32767 之间的（有符号）值（这可以表示模拟信号的负摆幅和正摆幅）
每个字节只允许 8 位（就计算机存储而言），因此 16 位样本必须由至少 2 个字节表示
这些字节的存储顺序称为它们的字节序类型（大或小）
立体声采样需要为每个通道单独采样，一个用于左声道，另一个用于右声道

有哪些不同的方式用于存储数字音频：

PCM（脉冲编码调制）是最常见的以数字方式存储音频的未压缩方式
存在许多压缩以减少使用的数据量，有些是无损的，有些是有损的
WAV 文件未压缩，可以是单声道或立体声（交错采样）
MP3 文件经过压缩、有损并采用心理声学技术来实现非常高的数据压缩率
即使是最低位范围（1 位）也可能有用，具体取决于它们的使用情况，通常是播放存储为 1 位音频的礼品卡

如何更熟悉数字领域的音频：

做，做更多！下载 audacity 等程序并使用不同的采样率和比特范围创建不同的音频文件
创建正弦/三角形/方形和锯齿音并聆听差异
学习聆听 8 位 10KHz 文件和 16 位 44.1KHz 文件（CD 质量）等类型之间的区别
尝试使用高通/低通/带通滤波器并聆听差异
推动信号超出其饱和限制以了解削波如何影响音频信号
如果您的软件具有此功能，则将包络应用于信号
非谐波失真和谐波失真是有区别的，两者都试验
使用频谱图 (FFT) 查看这些和其他信号以熟悉它们
使用线性图和对数图来查看差异
对信号进行下采样和上采样，并了解这对音频的影响
使用不同的抖动方法（转换位范围时）并听到差异

这有望让您了解数字表示的音频是什么，以及在尝试任何 DSP 之前听起来有何不同。如果您可以识别出您输入的是 8 位信号与 16 位信号，或者采样率已因变换中的错误计算错误而损坏，则总是更容易知道您的 FFT 分析有问题。

其它你可能感兴趣的问题

上一篇为什么我们说“零填充并不能真正提高频率分辨率” 下一篇如何计算 dBFS？