信息处理 - 用于说话人识别的语音分割 - 吾爱随笔录

我正在尝试实现一个说话人识别系统，并希望确保我了解语音分割的最新趋势。我已经在更高的层次上阅读了许多非常不同的方法，但我不确定哪一种最适合我的特定情况。我将列出到目前为止我发现的内容，我将不胜感激（a）对我迄今为止所做的研究的评论或（b）我没有提到我应该知道的流行方法。然后我会从那里确定最适合我的情况的方法。

语音分割技术 （到目前为止我已经确定）

我读过 1-16 Hz 之间的强长期调制频率表明语音活动，但无法找到任何关于这些究竟是什么的好的解释。到目前为止，我能够确定的是它们是特定频段的时间频谱。（Maganti 等人在会议室自动语音识别的无监督语音/非语音检测）
独立使用能量方差（高方差意味着类语音片段）或与其他方法一起构建具有两个分量的高斯混合模型：一个用于语音，一个用于噪声，然后将窗口重新分类为语音或非语音。（一种无监督的顺序学习算法，用于分割具有多个说话者的语音波形，由 Siu 等人提出）
使用 Voting Experts 算法，该算法利用迭代和窗口内熵（这个意义上的窗口是“窗口的窗口”）来确定“块”在哪里使用具有高段间熵的特征，然后使用 2-means 聚类将这些块分类为语音或非语音，其中每个块簇包含两个类之一的所有块。（投票专家：一种用于分割序列Cohen 等人的无监督算法）

我的问题的简短版本

最终，我真的很想知道目前行业中的标准是什么。然后，一旦我有了更多的基础知识，我就可以确定最适合我的特定情况的方法。