请求解释 LPC 和 LPCC 系数 :)

信息处理 mfcc lpc
2022-01-12 09:47:41

如果我了解LPC的功能,我想。它通过考虑先前的个样本来预测下一个样本。我不明白为什么它在 DPS 和语音识别中很有用。p

我还遇到了可以从LPC派生的与声音频率有关的LPCC 。我还发现很难理解为什么倒谱系数对语音识别有用甚至更好。

不过,我确实读过有关 MFCC 的信息。我知道在 DCT 之前,系数(还没有 MFCC)只是由三角形带通滤波器过滤的信号特定频率范围内的能量。除了应用 DCT 的最后一步之外,我对 MFCC 没有任何问题我认为这也与倒谱有关。

为什么你认为倒谱对语音、说话者和音乐识别如此有用?

我将不胜感激:)

编辑。我发现了一个错字。而不是“除了应用 DCT 的最后一步之外,我对 MFCC 有问题”,我真正的意思是“除了应用 DCT 的最后一步,我对 MFCC 没有问题”。

有人可以为这个主题添加标签“LPCC”吗?这是我认为的演讲技巧之一,值得被贴上标签。我现在做不到。干杯!

2个回答

语音——连同大多数乐器产生的声音——可以用源过滤器模型来描述。在语音的情况下,声门是声门——产生一个周期性的脉冲序列——而滤波器是声道——就像一个滤波器一样,有几个窄峰(共振峰)塑造脉冲序列。当发音不同的音素(试着说“ao i”......)时,这个过滤器的响应会发生什么变化。

线性预测分析的结果是一组描述滤波器的系数和一个残差信号——这样分析的信号是通过具有估计系数的全极点滤波器对残差信号进行滤波的结果。换句话说,这“逆向工程”了语音产生的过程,声道的贡献由系数解释,声门的贡献由残差信号解释。决定说出哪个音素的主要因素是语音产生过程中声道的配置 - 因此线性预测系数对语音识别的有用性。

类似地,倒谱分析擅长在根据源/滤波器模型产生的信号中分离源和滤波器的贡献。第一个倒谱系数捕获滤波器的贡献,较高的系数使检测源的周期性变得容易。

正如您所提到的,线性预测试图从先前 P 个输出的线性组合中估计下一个信号样本。在数学上,我们可以像这样表达样本 其中是错误信号。将线性预测应用于我们的信号帧,例如长度为个样本 ( ),我们可以得到线性预测系数nthx[n]

x[n]=k=1Pakx[nk]+e[n]
e[n]NNPa1,a2,,aP

对于此模型有效的信号,相比包含的信息非常少。然后,线性预测操作为我们提供了代表大部分信号的个;换句话说,我们已经能够对信号进行编码,因此可以进行线性预测编码。这种信号编码对于许多不同的应用非常有用。(当你打电话给你的朋友时,你的手机每秒数百次决定你声音的线性预测系数!)e[n]x[n]PN

此外,线性预测系数本质上是描述的最优全极点滤波器的系数。(在何种意义上的最优取决于用于确定它们的算法,但它通常是某种形式的时域最小均方)。这意味着我们对的频域包络有一个估计,我们可以从我们的系数中得出它。语音识别通常从频域角度进行操作,因此线性预测系数也可用于该应用。x[n]x[n]

为了提高识别性能,以与我们听到的方式(即某种感知域)更紧密相关的其他形式表示频谱是有用的。MFCC 和其他类似的信号表示(我假设 LPCC 做类似的事情,因为我不熟悉它们)就是这样做的,并以一种使感知差异更加明显的方式扭曲线性频域。