我试图弄清楚如何区分单声语音和语音重叠的多声对话。换句话说——重叠的时刻是我感兴趣的。我希望能够听到两个人之间的声音对话,并检测声音何时发生碰撞/重叠。
我想在频谱方面,没有重叠的基于语音的对话与有语音重叠的对话之间存在重大差异,所以也许要研究的一个方向是检测突然的频谱变化?
我试图弄清楚如何区分单声语音和语音重叠的多声对话。换句话说——重叠的时刻是我感兴趣的。我希望能够听到两个人之间的声音对话,并检测声音何时发生碰撞/重叠。
我想在频谱方面,没有重叠的基于语音的对话与有语音重叠的对话之间存在重大差异,所以也许要研究的一个方向是检测突然的频谱变化?
大多数人类元音会产生一系列谐波频谱峰值,这些峰值可分解为单个 F0 音高(加上一些广谱噪声)。如果您无法将单个 F0 音高拟合到一系列频谱峰值,那么您可以尝试测试频谱解析为 2 个或更多 f0 音高的假设,这意味着不止一个说话者以重叠的元音说话用他们的话来说。
在没有大量误报的情况下检测元音和其他人的辅音之间的重叠似乎要困难得多。
更好的想法是使用 LP(线性预测)残差来确定重叠语音的存在。
频谱可能会给出令人困惑的结果,但 LP 残差在 Glottal Closure Instance(GCI's)有峰值,并且每个说话者都有不同/独特的 GCI 周期。因此,如果 LP 残差中的峰值处于均匀间隔,则意味着仅存在单个说话人,如果 LP 残差峰值不均匀,则意味着语音重叠。