与 LIUM 的电话对话记录

信息处理 语音处理 演讲
2022-02-04 07:32:18

我正在尝试通过扬声器拆分呼叫中心录音。LIUM似乎很合身。但结果对我来说是随机的(绿色是标准具,灰色是我得到的): 分类结果 所以我认为我做错了什么。也许特征没有正确提取?我正在运行的命令是

java -cp lium_spkdiarization-8.4.1.jar fr.lium.spkDiarization.system.Telephone \
     --saveAllStep --doCEClustering \
     --fInputMask sound.wav --sOutputMask=%s.xml \
     --sOutputFormat=seg.xml,UTF8 sound

sound.wav 是RIFF (little-endian) data, WAVE audio, Microsoft PCM, 16 bit, mono 48000 Hz. 可以在这里下载https://yadi.sk/d/w0doqi7QhcjJj请帮忙!

1个回答

system.Telephone只是为了检测语音,这就是为什么你只得到初始化集群。您可以使用默认值,它会按照LIUM docsfr.lium.spkDiarization.system.Diarization中所述执行正确的步骤,结果将如下所示:

;; cluster S0
file 1 0 1135 M S U S0
file 1 5722 300 M S U S0
file 1 9266 359 M S U S0
file 1 12670 370 M S U S0
;; cluster S1
file 1 1135 832 F S U S1
file 1 5372 350 F S U S1
file 1 6022 572 F S U S1
file 1 10167 1550 F S U S1
file 1 13040 466 F S U S1
file 1 13623 352 F S U S1
;; cluster S10 [ merge HCLR 0 = S10 in S11 with 1.208107727685253 ]
file 1 1967 693 F S U S10
file 1 2660 1644 F S U S10
file 1 4304 1068 F S U S10
file 1 6594 937 F S U S10
;; cluster S12
file 1 7531 429 F S U S12
file 1 8692 574 F S U S12
;; cluster S13
file 1 7960 732 M T U S13
;; cluster S16
file 1 9625 542 F S U S16
file 1 11717 953 F S U S16

包含在 jar 中的 LIUM 模型针对 16khz 进行了训练,因此输入应该更好 16khz,您需要在输入 LIUM 之前将 48khz 文件重新采样为 16khz。

如果你想在电话语音上运行,你可能需要为此重新训练 mail/female/ubm 模型。还值得注意的是,LIUM 模型是针对法语进行训练的,而对于其他语言,应该更好地对其进行再训练。

总体而言,LIUM 预计不会开箱即用,您可能需要花一些时间才能使其正常工作。