我正在尝试实现一个说话人识别系统,并希望确保我了解语音分割的最新趋势。我已经在更高的层次上阅读了许多非常不同的方法,但我不确定哪一种最适合我的特定情况。我将列出到目前为止我发现的内容,我将不胜感激(a)对我迄今为止所做的研究的评论或(b)我没有提到我应该知道的流行方法。然后我会从那里确定最适合我的情况的方法。
语音分割技术 (到目前为止我已经确定)
我读过 1-16 Hz 之间的强长期调制频率表明语音活动,但无法找到任何关于这些究竟是什么的好的解释。到目前为止,我能够确定的是它们是特定频段的时间频谱。(Maganti 等人在会议室自动语音识别的无监督语音/非语音检测)
独立使用能量方差(高方差意味着类语音片段)或与其他方法一起构建具有两个分量的高斯混合模型:一个用于语音,一个用于噪声,然后将窗口重新分类为语音或非语音。(一种无监督的顺序学习算法,用于分割具有多个说话者的语音波形,由 Siu 等人提出)
使用 Voting Experts 算法,该算法利用迭代和窗口内熵(这个意义上的窗口是“窗口的窗口”)来确定“块”在哪里使用具有高段间熵的特征,然后使用 2-means 聚类将这些块分类为语音或非语音,其中每个块簇包含两个类之一的所有块。(投票专家:一种用于分割序列Cohen 等人的无监督算法)
我的问题的简短版本
最终,我真的很想知道目前行业中的标准是什么。然后,一旦我有了更多的基础知识,我就可以确定最适合我的特定情况的方法。