我正在尝试计算 Delta 系数以进行实时音频分析。据我所知,一个有效的公式是:
似乎我在每个时间步未来帧来计算 delta 和 delta-delta。但是在实时中,我没有几个的未来帧(取决于我的窗口分割)。我的方法是计算时间步长的 delta 和 delta-delta 偏移量(即计算前一帧或前一帧的值)。但是,这些系数将对应于先前的帧之一,从而为特征向量带来偏移。
有没有其他方法可以解决这个问题?(也许使用稍微不同的公式?)
我正在尝试计算 Delta 系数以进行实时音频分析。据我所知,一个有效的公式是:
似乎我在每个时间步未来帧来计算 delta 和 delta-delta。但是在实时中,我没有几个的未来帧(取决于我的窗口分割)。我的方法是计算时间步长的 delta 和 delta-delta 偏移量(即计算前一帧或前一帧的值)。但是,这些系数将对应于先前的帧之一,从而为特征向量带来偏移。
有没有其他方法可以解决这个问题?(也许使用稍微不同的公式?)
只要您训练和评估相同的功能,您就会完全适应这种延迟。
实际上,和的特征向量的前两帧都是零。所以实际上系数被延迟了两帧。这些可以根据以下公式计算:
请注意,有意省略了比例因子。这只是特征空间的线性缩放,不应改变结果。例如,在 GMM 的情况下,马氏距离考虑了跨维度的方差差异。