在寻找这个问题的答案时,我发现了这个板,所以决定从 Stack Overflow交叉发布我的这个问题。
我正在寻找一种确定音频片段和人声之间相似度的方法,这种相似度用数字表示。
我已经搜索了很多,但到目前为止我发现的内容(如下详述)并不真正符合我的需要:
一种方法是使用语音识别软件从音频片段中获取单词。但是,这种方法无法得出音频与人类语音“相似”的程度;它通常可以判断音频中是否有单词,但如果没有确定的单词,它就无法判断音频是否接近有这样的单词。
示例:CMU 狮身人面像、蜻蜓、呼喊更有前途的方法被称为语音活动检测(VAD)。然而,这往往具有相同的问题:使用 VAD 的算法/程序往往只返回是否已达到活动阈值,并且在此阈值之前或之后没有“相似性”值。或者,许多人只是寻找音量,而不是与人类语音的相似性。
示例:Speex、Listener、FreeSWITCH
有任何想法吗?