为什么在音高检测之前进行包络提取?

信息处理 演讲 沥青 希尔伯特变换 预处理
2022-02-18 22:24:56

我指的是这个关于音高估计的报告。

作者在应用 AMDF 之前使用希尔伯特变换进行包络提取。

在此处输入图像描述

这样做有什么好处?

语音是窄带信号还是宽带信号?我在某处读到希尔伯特包络提取对窄带信号效果更好。

当我使用希尔伯特变换提取语音信号的包络时,在某些地方包络与原始波形几乎相同(图 1),而在其他地方它跟踪波形的上部(图 2)。

红色曲线是希尔伯特包络,蓝色曲线是语音波形。

图。1 在此处输入图像描述

图2 在此处输入图像描述

2个回答

我的猜测是,希尔伯特变换是一个预处理步骤,它试图使实际的音高检测阶段(在这种情况下为 AMDF)更加稳健。

基本推理是这样的:语音的音高检测由于信号的时变频谱特性而变得更加困难。另一方面,脉冲序列的音调检测很容易:只需计算每个脉冲之间的样本数(或寻找自相关函数的第一个峰值/ AMDF 的第一个下降等)。对语音信号进行预处理以使其更像脉冲,从而改善结果。

在您的图表中,希尔伯特变换确实使语音脉冲更具脉冲性,尽管我认为其他预处理步骤(例如,通过估计的频谱包络进行逆滤波)可能会产生更好的结果。

在一般的一阶共振系统中,能量通常在两个量之间不断交换,例如位移与动量(等),而组合能量的变化速度要慢得多。在带通之后,希尔伯特变换器试图从实际测量的另一个量(例如局部气压或谐振器表面的位移)中估计一个量(未测量)。如果两个不同量之和的能量随着时间的推移保持大致相同,那么在该频率上可能存在值得测量的能量。否则,它可能只是一个测量瞬态,与在该频率下发生的一些共振没有太大关系。

发声通常涉及几种不同的声道​​共振。在尝试描述多个同时发生的能量交换系统的混合情况时,尝试分别检测和/或测量每个潜在的共振通常比尝试一次解决整个混合更容易。