我有正在接受采访的人的音频剪辑,我正在尝试使用 python 拆分音频剪辑,以便将受访者的所有语音片段输出到一个音频文件(例如 .wav 格式)中,并将采访者的语音片段输出到另一个音频文件中。说话人识别需要使用无监督学习来执行。
到目前为止,我已经找到了一些执行扬声器分类任务的库(pyAudioAnalysis,aalto-speech),但没有一个库可以组合不同的扬声器段并将其输出到单独的音频文件中。如何根据扬声器分割音频文件并组合它们?
我有正在接受采访的人的音频剪辑,我正在尝试使用 python 拆分音频剪辑,以便将受访者的所有语音片段输出到一个音频文件(例如 .wav 格式)中,并将采访者的语音片段输出到另一个音频文件中。说话人识别需要使用无监督学习来执行。
到目前为止,我已经找到了一些执行扬声器分类任务的库(pyAudioAnalysis,aalto-speech),但没有一个库可以组合不同的扬声器段并将其输出到单独的音频文件中。如何根据扬声器分割音频文件并组合它们?
最初我确实使用了静音检测,但后来转移到了更好的 pyAudioAnalsis。
在 pyAudioAnalysis 中的Segmentation 中检查“Speaker Diarization”部分
我假设您使用wavfile.read
fromscipy.io
来读取音频文件。
我的方法是使阵列(每个扬声器一个)与原始音频阵列具有相同的大小,但用零填充(=静音)。对于通过分类检测到的每个扬声器,将它们的所有段分配给扬声器阵列中的相应段。
最后,您可以将每个扬声器的阵列保存在单独的文件中。