信息处理 - 用于语音识别的动态时间扭曲 - 吾爱随笔录

我正在做一个非常简单的语音识别项目，我计划为模板匹配实现 DTW。基本上，我将存储我尝试匹配的某个单词的模板的 FFT 值，存储传入数据，执行 FFT，并运行 DTW 算法以查看它是否与模板匹配。我的问题是，我似乎在我读过的任何关于 DTW 的论文上都找不到答案，我如何确定算法可以计算的最大成本并且仍然被标记为匹配？换句话说，如果 dtw 算法计算价值 X 的成本，我需要提出什么标准来确定它是否小到足以匹配？