用于说话人识别的语音分割

信息处理 演讲 分割
2022-02-01 22:31:45

我正在尝试实现一个说话人识别系统,并希望确保我了解语音分割的最新趋势。我已经在更高的层次上阅读了许多非常不同的方法,但我不确定哪一种最适合我的特定情况。我将列出到目前为止我发现的内容,我将不胜感激(a)对我迄今为止所做的研究的评论或(b)我没有提到我应该知道的流行方法。然后我会从那里确定最适合我的情况的方法。

语音分割技术 (到目前为止我已经确定)

  • 我读过 1-16 Hz 之间的强长期调制频率表明语音活动,但无法找到任何关于这些究竟是什么的好的解释。到目前为止,我能够确定的是它们是特定频段的时间频谱。Maganti 等人在会议室自动语音识别的无监督语音/非语音检测)

  • 独立使用能量方差(高方差意味着类语音片段)或与其他方法一起构建具有两个分量的高斯混合模型:一个用于语音,一个用于噪声,然后将窗口重新分类为语音或非语音。一种无监督的顺序学习算法,用于分割具有多个说话者的语音波形,由 Siu 等人提出)

  • 使用 Voting Experts 算法,该算法利用迭代和窗口内熵(这个意义上的窗口是“窗口的窗口”)来确定“块”在哪里使用具有高段间熵的特征,然后使用 2-means 聚类将这些块分类为语音或非语音,其中每个块簇包含两个类之一的所有块。(投票专家:一种用于分割序列Cohen 等人的无监督算法)

我的问题的简短版本

最终,我真的很想知道目前行业中的标准是什么。然后,一旦我有了更多的基础知识,我就可以确定最适合我的特定情况的方法。

1个回答

对于那些正在寻找与我相同信息的人,我将回答我自己的问题。自适应阈值是最常见的音频分割方式,它为您带来最大的收益。虽然有更准确的分割方法,但自适应阈值处理快速且非常准确,并使用过零、能量和熵等简单特征。我将不得不自己更多地研究这个,但这应该足以开始。