音频频谱图中的特征提取

数据挖掘 特征选择 特征提取 无监督学习
2022-01-31 20:36:54

我有英语单词的音频及其频谱图。(频谱图是信号的频域表示)考虑这些词:链、变化、椅子、章节。如您所见,“ch”音在所考虑的单词中很常见。

是否有一种算法可以让我确定频谱图(数据)的哪一部分在单词的频谱图之间是共同的?换句话说,是否有一种算法可以识别频谱图中每个单词中代表“ch”声音的部分?

1个回答

“ch”音称为音素。音素级别的自动语音分割(与单词或句子相反)将允许您从语音样本中提取每个音素。这有时被称为音素分割。文献中有几篇关于这方面的论文。

一旦提取了音素,就可以计算它们之间的距离/相似性(在某些特征空间中)。一个示例特征表示可以是 MFCC。