我正在做一个非常简单的语音识别项目,我计划为模板匹配实现 DTW。基本上,我将存储我尝试匹配的某个单词的模板的 FFT 值,存储传入数据,执行 FFT,并运行 DTW 算法以查看它是否与模板匹配。我的问题是,我似乎在我读过的任何关于 DTW 的论文上都找不到答案,我如何确定算法可以计算的最大成本并且仍然被标记为匹配?换句话说,如果 dtw 算法计算价值 X 的成本,我需要提出什么标准来确定它是否小到足以匹配?
用于语音识别的动态时间扭曲
信息处理
嗓音
2022-01-31 06:26:22
0个回答
没有发现任何回复~