我正在处理语音信号,我的目标是估计基频
这个信号通常被称为“音高”。
主要思想是获取语音信号的小块,以便可以假设静止。然后计算该语音信号块的自相关函数(ACF),并找到指基频的 ACF 的全局最大值(零除外)的索引。
但在文本中指出:
全局最大值可能不在对应于真实基频的滞后处,但可能是它的整数倍。因此,最大值可以在对应于 T0 倍数的滞后之间的连续帧中跳跃,这也会导致 F0 估计中的跳跃。这些效果称为八度跳跃。
我的问题出现在这一点上:八度跳跃是如何发生的?可能的原因是什么?我知道 ACF 是一个周期函数,因为原始时间序列是周期性的,在我看来,这个周期等于我们正在处理的原始语音信号的块长度。当我调查 ACF 的第一个周期的间隔时,我如何确定最大值是指音高还是从连续周期(块)偏移的最大值?我怎样才能防止这种影响?