是否可以通过互相关实时比较两个音频样本(意味着从另一个中找到单词)?
可以与具有互相关性的音频样本进行比较
信息处理
fft
互相关
2022-02-19 03:16:57
3个回答
不会。如果单词以不同的速度或语调(韵律)发音,或者由不同的说话者发音,则互相关将没有任何意义。
对韵律变化更鲁棒的解决方案是使用对音高依赖性较小的音频特征(例如 MFCC),以及对本地时间拉伸(例如 DTW 或 HMM 之间的距离)具有鲁棒性的比较方法。在比较两个不同人说同一个词的录音时,它仍然表现不佳。
不是。人类的文字识别是一种非常复杂的心理感知现象。对人类来说听起来像同一个词的事物可能具有完全不同的波形,相关性几乎为零(不同的音高频率和音调调制、时序、共振峰中心、周围环境等)
不可能......@pichenettes 说的是对的...... “人们不是唱片播放器 - 一个词的每一句话,即使是同一个人,在时间、音高、音色上都有差异,这会改变信号的形状”
除非@user4947 说它是同一个音频文件,但可能 1 是剪切版本,而另一个是完整音频文件。
其它你可能感兴趣的问题