VAD 语音语料库

信息处理 DSP核心 语音识别 语音处理 演讲
2022-02-02 05:55:00

我正在做一个与 VAD 相关的学生研究项目。我想找到增加噪音的语音语料库。我发现了很多关于 NIST Speaker Recognition Corpora 的参考资料。但不幸的是,主站点上的所有链接都已经失效。

也许有人有这个语料库?或者有人可以推荐一个有噪音的好语料库?

3个回答

查看 Kaldi 人的 MUSAN 语料库(Dan Povey 等人):

MUSAN 是一个新的音乐、语音和噪音语料库。该数据集适用于语音活动检测 (VAD) 和音乐/语音识别的训练模型。我们的语料库是在灵活的知识共享许可下发布的。该数据集包括来自多种流派的音乐、来自十二种语言的语音以及各种各样的技术和非技术噪音。我们展示了使用该语料库对广播新闻进行音乐/语音识别,并使用 VAD 进行说话人识别。

相关论文是

“用于评估语音活动检测算法的 QUT-NOISE-TIMIT 语料库”

http://eprints.qut.edu.au/38144/

噪声数据库可在此处获得

https://www.qut.edu.au/research/research-projects/speech-audio-image-and-video-technology-saivt

对于语音而不是 TIMIT,您可以使用任何公共数据库,例如 librispeech:

http://www.openslr.org/12/

在真实环境中记录的 VAD 的自由语音数据集,带有真实标签:

参考:https ://github.com/jtkim-kaist/VAD-Toolkit