我正在研究一种濒临灭绝的语言并遇到以下问题:虽然我已经准确地标记了与我一起工作的说话者在单词级别的给定时间步所说的话,并且我知道可能的声音/电话/字母列表可以使总而言之,我需要一种方法来用最少的数据(可能是几个小时的录音)自动检测声音的边界。
为了处理一个单词一开始只能以一种方式发音的情况,我想知道是否找到 MFCC 向量之间的差异或角度以创建 MFCC 变化的函数,然后找到最大 n 个点是否可行,但我不确定如果有更好的方法来做到这一点。我还担心声音之间的某些界限可能不如其他界限那么明显。我也不知道如何处理一个单词可能用不同数量的音素发音的情况(例如,“texts”/t eh ksts/ -> [t eh ks] 或 [t eh ksts])。
任何帮助,将不胜感激