信息处理 - 与 LIUM 的电话对话记录 - 吾爱随笔录

与 LIUM 的电话对话记录

信息处理语音处理演讲

2022-02-04 07:32:18

我正在尝试通过扬声器拆分呼叫中心录音。LIUM似乎很合身。但结果对我来说是随机的（绿色是标准具，灰色是我得到的）：分类结果所以我认为我做错了什么。也许特征没有正确提取？我正在运行的命令是

java -cp lium_spkdiarization-8.4.1.jar fr.lium.spkDiarization.system.Telephone \
     --saveAllStep --doCEClustering \
     --fInputMask sound.wav --sOutputMask=%s.xml \
     --sOutputFormat=seg.xml,UTF8 sound

sound.wav 是RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 48000 Hz. 可以在这里下载https://yadi.sk/d/w0doqi7QhcjJj。请帮忙！

1个回答

system.Telephone只是为了检测语音，这就是为什么你只得到初始化集群。您可以使用默认值，它会按照LIUM docsfr.lium.spkDiarization.system.Diarization中所述执行正确的步骤，结果将如下所示：

;; cluster S0
file 1 0 1135 M S U S0
file 1 5722 300 M S U S0
file 1 9266 359 M S U S0
file 1 12670 370 M S U S0
;; cluster S1
file 1 1135 832 F S U S1
file 1 5372 350 F S U S1
file 1 6022 572 F S U S1
file 1 10167 1550 F S U S1
file 1 13040 466 F S U S1
file 1 13623 352 F S U S1
;; cluster S10 [ merge HCLR 0 = S10 in S11 with 1.208107727685253 ]
file 1 1967 693 F S U S10
file 1 2660 1644 F S U S10
file 1 4304 1068 F S U S10
file 1 6594 937 F S U S10
;; cluster S12
file 1 7531 429 F S U S12
file 1 8692 574 F S U S12
;; cluster S13
file 1 7960 732 M T U S13
;; cluster S16
file 1 9625 542 F S U S16
file 1 11717 953 F S U S16

包含在 jar 中的 LIUM 模型针对 16khz 进行了训练，因此输入应该更好 16khz，您需要在输入 LIUM 之前将 48khz 文件重新采样为 16khz。

如果你想在电话语音上运行，你可能需要为此重新训练 mail/female/ubm 模型。还值得注意的是，LIUM 模型是针对法语进行训练的，而对于其他语言，应该更好地对其进行再训练。

总体而言，LIUM 预计不会开箱即用，您可能需要花一些时间才能使其正常工作。

其它你可能感兴趣的问题

上一篇如何为声音产生逼真的回声？下一篇本文中用于系统识别的估计器是什么？