元音的 AR 模型使用什么输入?

信息处理 数字通信 自回归模型 演讲
2022-01-15 20:34:38

我录制了一个 2 秒的元音发音。信号的前 0.12 秒左右如下所示。

现在,我构建了一个自回归 (AR) 8 阶模型来压缩此信号。(实际上,我只是一次建模 160 个样本或 0.02 秒。)arMatlab 的系统识别工具箱中的函数可以估计“最佳”频谱拟合的参数。

我的问题是选择模型过滤器的随机输入。我想有比白噪声更好的东西。周期性(每 0.02 秒 14 个周期)使我认为具有相同周期的脉冲列车是合适的。

如果是这样,我将如何选择幅度,以及如何找到周期性?ACF 和 PSD 估计非常嘈杂。我什至走在正确的轨道上吗?

在此处输入图像描述

2个回答

音高估计器通常用于找到声音的周期性。常见的音高估计器包括倒谱/倒谱分析、谐波积谱和复合算法,例如YAAPT

我认为您最好的选择是本文中描述的“YIN”音高检测器:http: //audition.ens.fr/adc/pdf/2002_JASA_YIN.pdf它相当简单,并且性能非常好。他们按步骤呈现它,或对先前的想法进行改进,甚至只执行前几个步骤就足够了。

大多数实际使用的音高检测器都与自相关有关。大多数音高检测算法的最大问题是八度音阶错误——检测较低或较高的音高。有趣的是,您说您的自相关函数很嘈杂。您应该看到一堆噪声,峰值在基频的整数倍和除数处。希望与基频相对应的音高滞后具有最大值,但通常它会处于亚八度音阶(因为信号不是完全周期性的),或者处于更高的八度音阶(因为强共振峰导致更高的共振峰之一)谐波非常响亮)。我会推荐一个窗口大小,大约与您可能的最低音高周期的两个一样大。

该信号看起来也具有非常低的频率分量——语音通常不会像那样上下波动。我可能会建议使用 50 Hz 左右的 24 dB/oct 高通滤波器来处理它。