我正在写关于声学模式识别的硕士论文,并对倒谱系数的计算有疑问。我理解 MFCC 计算中滤波器组的步骤,它只是人耳感知的功率谱。如果人类的感知是无关紧要的,例如,如果我不是在研究人类语言,该怎么办?我已经为我需要的频段构建了一个线性间隔、50% 重叠的滤波器组。但在我看来,在我的情况下不需要过滤器组。如果我对对数功率谱进行 DCT,它会在第一个频率上压缩最多的能量,无论我向 DCT 提供滤波器组能量还是只提供完整的对数功率谱都没有关系。我已经在 Matlab 中对其进行了测试,这似乎是正确的。我想知道的是,如果滤波器组乘法是计算倒谱系数的必要步骤,如果人类的声音感知无关紧要。我只想保持基本的光谱形状(包络),所有频率都应该具有相同的“权重”,而不是像梅尔尺度的情况。我以前认为,filterbank 步骤会做某种降维,但显然,dct 正是完成这项工作。在上面的图片中,我想展示的是,滤波器组步骤不会影响频谱包络。如果先将 psd 与滤波器组相乘,然后对前 15 个倒谱系数进行 idct,则直接取 psd 的 dct,然后取前 15 个倒谱系数的 idct 会导致相同的频谱包络。如前所述,我的滤波器组由 40 个线性间隔的三角形 50% 重叠滤波器组成。1)没有滤波器组乘法 所有频率都应该具有相同的“权重”,而不是像 mel-scale 的情况。我以前认为,filterbank 步骤会做某种降维,但显然,dct 正是完成这项工作。在上面的图片中,我想展示的是,滤波器组步骤不会影响频谱包络。如果先将 psd 与滤波器组相乘,然后对前 15 个倒谱系数进行 idct,则直接取 psd 的 dct,然后取前 15 个倒谱系数的 idct 会导致相同的频谱包络。如前所述,我的滤波器组由 40 个线性间隔的三角形 50% 重叠滤波器组成。1)没有滤波器组乘法 所有频率都应该具有相同的“权重”,而不是像 mel-scale 的情况。我以前认为,filterbank 步骤会做某种降维,但显然,dct 正是完成这项工作。在上面的图片中,我想展示的是,滤波器组步骤不会影响频谱包络。如果先将 psd 与滤波器组相乘,然后对前 15 个倒谱系数进行 idct,则直接取 psd 的 dct,然后取前 15 个倒谱系数的 idct 会导致相同的频谱包络。如前所述,我的滤波器组由 40 个线性间隔的三角形 50% 重叠滤波器组成。1)没有滤波器组乘法 dct 正是完成这项工作。在上面的图片中,我想展示的是,滤波器组步骤不会影响频谱包络。如果先将 psd 与滤波器组相乘,然后对前 15 个倒谱系数进行 idct,则直接取 psd 的 dct,然后取前 15 个倒谱系数的 idct 会导致相同的频谱包络。如前所述,我的滤波器组由 40 个线性间隔的三角形 50% 重叠滤波器组成。1)没有滤波器组乘法 dct 正是完成这项工作。在上面的图片中,我想展示的是,滤波器组步骤不会影响频谱包络。如果先将 psd 与滤波器组相乘,然后对前 15 个倒谱系数进行 idct,则直接取 psd 的 dct,然后取前 15 个倒谱系数的 idct 会导致相同的频谱包络。如前所述,我的滤波器组由 40 个线性间隔的三角形 50% 重叠滤波器组成。1)没有滤波器组乘法 我的过滤器库由 40 个线性间隔的三角形 50% 重叠过滤器组成。1)没有滤波器组乘法 我的过滤器库由 40 个线性间隔的三角形 50% 重叠过滤器组成。1)没有滤波器组乘法 2) 使用滤波器组乘法
在 MFCC 计算的情况下:为什么需要将 psd 与 filterbank 相乘(在 MFCC 情况下)?为什么不直接将每个 fft bin 转换为 mel 标度,而是先与 filterbank 相乘并在转换为倒谱之前将每个滤波器的能量相加?我发现了大量的论文、书籍和线程,但从来没有关于在进一步处理之前汇总滤波器组中的频率箱的功能的详细信息。在我看来,这就像对 psd 进行低通滤波,但是如果在任何情况下都进行了短通提升(只取倒谱中的前 13 个系数),为什么?这个问题的答案将是第一个问题的答案。我希望现在更清楚一点。对不起,我的英语不好。