声门闭合瞬间的估计

信息处理 声音的 演讲 嗓音
2022-02-14 22:26:59

声门闭合瞬间 (GCI) 是指声道显着激发的实例。

我在一些论文中看到,我可以直接从语音波形中测量浊音段中的声门闭合瞬间。

在此处输入图像描述

有人可以向我提供如何检测 GCI 的信息吗?

如何估计声门闭合瞬间?

3个回答

有许多方法可以估计声门闭合 (GCI) 的瞬间。 这里(PDF 链接)是最近的一篇期刊文章,其中回顾了其中的许多文章。用于 Matlab的免费VOICEBOX 工具箱包括一些 GCI 估计技术。

对于大多数方法,基本思想是相同的:语音信号可以看作是与全极点滤波器共振的激励信号,激励时刻的位置是声门闭合的时刻。

一个简单的 GCI 估计算法可能会像这样工作。可以使用线性预测来估计全极滤波器(封装声道和声门源的贡献)。用这个(时变)滤波器对语音信号进行逆滤波将给出线性预测残差信号,它是对激励信号的估计。对于正常的声音,这个信号看起来像一个噪声脉冲序列。在持续元音期间,拾取此信号的峰值将为这些声音提供良好的结果。声音偏移和起音会比较麻烦,以及非常有气息或不规则的声音。

(关于您的数字的快速说明:标记为残差的信号似乎包括声门源信号,因此它不是与我在上面提到的相同意义上的线性预测残差。)

正如其他人所提到的,已经开发了许多方法来确定语音的发音,并且对于浊音,标记各个音高时期。如果一个人想要有健壮和准确的时代标记,不是一个微不足道的问题。有很多挑战,双语语音就是其中之一。时域和频域技术都存在。本文中,您可以找到对五种技术的描述(详细到足以让您实现它们)、它们的比较以及一组直观的增强功能——如果您想开发自己的算法,这是一个很好的起点。如果您需要高质量的语音处理(例如,尽量减少任何抖动),那么我强烈推荐这个它描述了一个非常准确和可靠的方法的本质,但要准备好自己做很多详细的开发。