基于非语音模式构建配置文件

人工智能 自然语言处理 模式识别 语音识别
2021-11-12 05:39:59

是否有关于处理语音然后根据处理后的语音构建“说话者配置文件”的研究?诸如将语音与说话者配置文件匹配以及为说话者配置文件匹配语音模式和措辞之类的事情将是构建配置文件的示例。基本上,建立一个完全基于语音的个人模型。任何正在实施的示例将不胜感激。

3个回答

就在这里。一个非常快速的搜索发现了这个: Multimodal Speaker Identification Based on Text_and_Speech

让我为您服务:(我的斜体字摘要)

基于语音话语及其转录文本的说话人识别新方法。

他们首先通过使用概率潜在语义索引 (PLSI)对每个说话者的转录文本进行处理,该索引对每个说话者与他/她的身份、功能或专业知识密切相关的词汇进行建模

用户使用的语音到文本是 DARPA 在元数据提取 (MDE) 中的高效、经济、可重复使用的语音到文本 (EARS) 程序。

通过使用Melfrequency 倒谱系数 (MFCC) 并将动态范围量化为多个预定义的 bin,以便为每个语音话语计算 MFCC 局部直方图,该直方图与转录文本时间对齐。

为了测试,他们使用了由语言数据联盟分发的 RT-03 MDE 训练数据文本和注释语料库。

至于结果:使用 44 个扬声器时的识别率与 Probe ID。(a) PLSI 的平均识别率:69%;(b) MFCC:66%;(c) 两者:67%。

如果您需要更多相关论文,您可以使用https://the.iris.ai/ 之类的工具来查找相关论文。

帖子编辑:希望现在这篇文章符合标准。

说话人识别是相当广泛的研究领域。现代方法是将说话人信息映射到 i-vector,这是一个包含 200-400 个分量的实值向量,可以完全表征说话人。i-vectors 允许非常精确的说话人识别和验证。

有关更多信息,您可以查看 i-vector教程

您还可以查看NIST i-vector 挑战结果中的最新技术

对于实施,您可以查看 Kaldi 的以下说话人识别实验

为了获得最佳精度 i 向量是使用 DNN UBM 提取的,请注意 GMM UBM 的精度较低。

有关说话人识别方法和算法的更深入信息,请查看这本教科书

Deepmind 最近根据这些思路创建了一个语音合成器它似乎非常慢,但有可能创建它的倾倒版本。

显然,该任务称为参数 TTS(文本到语音)。此概述可能会为您提供一些线索。