MFCC delta:如何在没有未来帧的情况下实时计算 delta?

信息处理 声音的 mfcc 特征提取
2022-02-18 17:34:23

我正在尝试计算 Delta 系数以进行实时音频分析。据我所知,一个有效的公式是:

dt=n=1Nn(ct+nctn)2n=1Nn2

似乎我在每个时间步未来帧来计算 delta 和 delta-delta。但是在实时中,我没有几个的未来帧(取决于我的窗口分割)。我的方法是计算时间步长的 delta 和 delta-delta 偏移量(即计算前一帧或前一帧的值)。但是,这些系数将对应于先前的帧之一,从而为特征向量带来偏移。ntmst

有没有其他方法可以解决这个问题?(也许使用稍微不同的公式?)

1个回答

只要您训练和评估相同的功能,您就会完全适应这种延迟。

实际上,的特征向量的前两帧都是零。所以实际上系数被延迟了两帧。这些可以根据以下公式计算:ΔΔΔ

Δ[t]=c[t]c[t2]
ΔΔ[t]=c[t2]2c[t1]+c[t]

请注意,有意省略了比例因子。这只是特征空间的线性缩放,不应改变结果。例如,在 GMM 的情况下,马氏距离考虑了跨维度的方差差异。