从一组 MFCC 向量中重建语音信号似乎效果很好,但我听说 MFCC 的一个优点是说话人独立性,即对于给定音素,它们在不同说话人之间或多或少是相同的。那么,如何从一个所谓的与说话者无关的 MFCC 向量重建一个语音信号及其所有与说话者相关的特性(口音等)?那么MFCC实际上不是独立于说话者的吗?如果不是,是什么决定了说话者独立与说话者依赖?
谢谢。
从一组 MFCC 向量中重建语音信号似乎效果很好,但我听说 MFCC 的一个优点是说话人独立性,即对于给定音素,它们在不同说话人之间或多或少是相同的。那么,如何从一个所谓的与说话者无关的 MFCC 向量重建一个语音信号及其所有与说话者相关的特性(口音等)?那么MFCC实际上不是独立于说话者的吗?如果不是,是什么决定了说话者独立与说话者依赖?
谢谢。
首先,在您链接到的 MFCC 重建实验中存在一些严重的“作弊”:不仅使用了 MFCC,还使用了浊音/清音位和音高。
MFCC 不是独立于扬声器的。事实上,它们用于说话人识别/验证任务!
说话者的“特质”既存在于他们的韵律中(由这个重建实验保留,因为音高是作为重建过程的辅助信息提供的)和发音/音色(由 MFCC 保留)。
要使 MFCC 用于与说话者无关的识别,需要两个要素:
声道长度归一化。线性变换(MFCC 向量的矩阵乘法)可以相对较好地映射两个说话者说同一个句子的 MFCC 序列。因此,即使 MFCC 不是独立于说话者的,也可以优化一个“扁平化”特定于说话者的细节的变换矩阵。
声学建模。对特定的声学单元使用大量高斯(或任何具有大容量的分类器)可以捕获所有变化。