音频信号处理初学者的学习路线图

信息处理 声音的
2022-01-11 05:07:16

我想开始学习音频信号处理。网上有很多书籍和学术论文,所有这些似乎都跳过了该主题的基础知识。

我想知道一个粗略的路线图,可以这么说,为了成功学习音频信号处理。

我读过微积分是开始信号分析之前的第一步。

在我看来,音频信号分析只是所需整体知识的一部分。其他主题是音乐理论、音频工程和编程。

如果我可以请具有这方面知识的人提出可能的步骤,以了解如何分析和操作/创建音频信号。

2个回答

我建议看看Julius O. Smith III 教授的物理音频信号处理它可以在线获得,也可以通过亚马逊的按需打印服务购买。

特别是,丛书概述中的描述可能是值得的。

在此处输入图像描述

如果不首先了解音频的本质以及数字化表示音频的各种方式是什么,我认为深入研究 DFT / FFT / IIR / FIR 和小波的复杂性没有任何意义。

什么是一般音频(在空气中,而不是在水或其他材料中):

  • 音频由声压波组成
  • 它们导致空气压缩和稀薄
  • 这些波从源点向外传播
  • 波浪会相互干扰,导致波峰和波谷
  • 波可以被材料吸收和反射

音频如何以电气方式表示:

  • 麦克风和前置放大器将声压波转换为电信号
  • 通常,此信号具有正电压和负电压(如交流电压)
  • 磁带在它们出现时存储这些差异,因此术语模拟
  • 当输入信号的强度等于系统的极限时会发生饱和(无法准确表示电压的任何增加)
  • 当输入信号高于系统可以表示的信号时发生削波,因此信号被削波(或在末端被截断)

音频如何以数字方式表示:

  • 必须首先使用 ADC(模数转换器)对音频进行采样
  • 采样包括定期对音频信号进行电测量
  • 这个周期称为采样率,它决定了可以表示的最高频率(奈奎斯特极限)
  • 奈奎斯特极限是采样率/2(越接近极限,信号的表现就越差)
  • 比特范围决定了本底噪声,(16 位为-96dB,8 位为-48dB)
  • 单个 16 位音频样本可以是 -32768 到 32767 之间的(有符号)值(这可以表示模拟信号的负摆幅和正摆幅)
  • 每个字节只允许 8 位(就计算机存储而言),因此 16 位样本必须由至少 2 个字节表示
  • 这些字节的存储顺序称为它们的字节序类型(大或小)
  • 立体声采样需要为每个通道单独采样,一个用于左声道,另一个用于右声道

有哪些不同的方式用于存储数字音频:

  • PCM(脉冲编码调制)是最常见的以数字方式存储音频的未压缩方式
  • 存在许多压缩以减少使用的数据量,有些是无损的,有些是有损的
  • WAV 文件未压缩,可以是单声道或立体声(交错采样)
  • MP3 文件经过压缩、有损并采用心理声学技术来实现非常高的数据压缩率
  • 即使是最低位范围(1 位)也可能有用,具体取决于它们的使用情况,通常是播放存储为 1 位音频的礼品卡

如何更熟悉数字领域的音频:

  • 做,做更多!下载 audacity 等程序并使用不同的采样率和比特范围创建不同的音频文件
  • 创建正弦/三角形/方形和锯齿音并聆听差异
  • 学习聆听 8 位 10KHz 文件和 16 位 44.1KHz 文件(CD 质量)等类型之间的区别
  • 尝试使用高通/低通/带通滤波器并聆听差异
  • 推动信号超出其饱和限制以了解削波如何影响音频信号
  • 如果您的软件具有此功能,则将包络应用于信号
  • 非谐波失真和谐波失真是有区别的,两者都试验
  • 使用频谱图 (FFT) 查看这些和其他信号以熟悉它们
  • 使用线性图和对数图来查看差异
  • 对信号进行下采样和上采样,并了解这对音频的影响
  • 使用不同的抖动方法(转换位范围时)并听到差异

这有望让您了解数字表示的音频是什么,以及在尝试任何 DSP 之前听起来有何不同。如果您可以识别出您输入的是 8 位信号与 16 位信号,或者采样率已因变换中的错误计算错误而损坏,则总是更容易知道您的 FFT 分析有问题。