LP-PSOLAR 算法使用线性预测编码 (LPC) 从信号计算误差向量。该误差向量用于计算音高标记。这些音高标记在原始信号中通常代表什么?它们代表基频的变化还是音素的变化(我认为这两个假设都是错误的)?下图描述了误差向量(红色)和信号(绿色)。第二张图片描绘了一个额外的例子。

LP-PSOLAR 算法使用线性预测编码 (LPC) 从信号计算误差向量。该误差向量用于计算音高标记。这些音高标记在原始信号中通常代表什么?它们代表基频的变化还是音素的变化(我认为这两个假设都是错误的)?下图描述了误差向量(红色)和信号(绿色)。第二张图片描绘了一个额外的例子。

音高标记指示波形每个周期的开始 - 或者从更生理的角度来看,声门的周期性运动会导致气流的突然变化。
稳定的声音(音高和音素)在每个循环中仍然会有一个标记 - 所以这些标记并不表示任何变化。
有趣的帖子,我正在做同样的事情,你的情节似乎正在捕捉谷标记,我使用基于自相关的音高跟踪做了同样的事情,但我的标记在峰值(信号的最大激发)。
对于我的第一个测试,我使用的是Peeter页面中的“Kara.segment1.aiff”,这里是我的情节标记:
当您讲话时,有一个时刻您的声门关闭而其他时刻打开,这个时刻是由音高标记找到的,有趣的是看看声门与音高周期之间的关系,您可以使用音高标记获得接近的音高值。
你可以看到它们有多近,对于这个我得到的情节:
从 Pitch Track 中提取的周期(基于自相关):
395 379 365 359 355 349 342 337 332 329 325 322 319 316 314 312 310 306 302 304 311
使用 Peaks 从 Pitch Mark 中提取的周期:
393 381 368 364 343 348 345 340 327 328 325 323 320 316 317 198 312 426 297 329 299