LP-PSOLA 算法中的“音高标记”是什么?

信息处理 声音的 沥青 lpc
2022-01-29 07:19:03

LP-PSOLAR 算法使用线性预测编码 (LPC) 从信号计算误差向量。该误差向量用于计算音高标记。这些音高标记在原始信号中通常代表什么?它们代表基频的变化还是音素的变化(我认为这两个假设都是错误的)?下图描述了误差向量(红色)和信号(绿色)。第二张图片描绘了一个额外的例子。

误差向量(红色),信号(绿色) 红点是间距标记吗?

2个回答

音高标记指示波形每个周期的开始 - 或者从更生理的角度来看,声门的周期性运动会导致气流的突然变化。

稳定的声音(音高和音素)在每个循环中仍然会有一个标记 - 所以这些标记并不表示任何变化。

有趣的帖子,我正在做同样的事情,你的情节似乎正在捕捉谷标记,我使用基于自相关的音高跟踪做了同样的事情,但我的标记在峰值(信号的最大激发)。

对于我的第一个测试,我使用的是Peeter页面中的“Kara.segment1.aiff”,这里是我的情节标记:在此处输入图像描述

当您讲话时,有一个时刻您的声门关闭而其他时刻打开,这个时刻是由音高标记找到的,有趣的是看看声门与音高周期之间的关系,您可以使用音高标记获得接近的音高值。

你可以看到它们有多近,对于这个我得到的情节:

从 Pitch Track 中提取的周期(基于自相关):

395 379 365 359 355 349 342 337 332 329 325 322 319 316 314 312 310 306 302 304 311

使用 Peaks 从 Pitch Mark 中提取的周期:

393 381 368 364 343 348 345 340 327 328 325 323 320 316 317 198 312 426 297 329 299