可以将 DCT 用于音频幅度谱而不是 DFT 吗?

信息处理 dct 自由度
2022-01-15 03:51:01

据我了解,DCT 的 bin 大小是相同大小 N 的 DFT 的一半。DFT 还包括相位信息,但通常在只需要幅度谱时不需要。

  • 是否可以使用 DCT 提供密度是 DFT 的两倍(bin 间距的一半)的幅度谱,还是会丢失异相信息?
  • 有 50% 的重叠怎么样?
2个回答

是的,DCT 可用于提供两倍密度的幅度谱。我不太了解重叠,但我假设由于 DCT 覆盖较少,您认为会有重叠。为了给这个问题提供一个合格的答案,让我快速回顾一下 DCT 在主要图像处理中的使用。

首先,我们需要做一些假设。为了使用 DCT,您需要有一个真实的信号。这是根据定义。当您说,DCT 的 bin 大小是 N 大小的 DFT 的一半,您假设信号是低频信号。否则,没有那么多。

对于在压缩中使用 DCT,由于图像的 DFT 将是对称的,它会产生冗余信息(一面镜子足以再现信号)。因此,与 DFT 相比,使用 DCT 的内核以产生更密集的信息。对于低频音频信号也是如此,它可以以相同的方式使用。虽然它使它更密集,但系数变得更大,因为 DCT 的内核覆盖了信号的两侧(实部和虚部)。

我的专业是图像处理,所以我尝试在图像处理中映射 DCT 和 DFT 的概念和解释。不过,图像和音频之间的一个区别可能是大小。在图像处理中,您知道大小(FFT 的行和列以及其他处理目的)。我想您需要以某种方式划分音频数据的向量以便进一步处理。在不知道数据的情况下,这可能很麻烦(我不确定)。

这是从网络上拍摄的图像,但我没有写下我在哪里拍的,可能是维基百科。

图像处理

如您所见,变换后的图像在 DCT 中由幅度谱表示,没有问题。以更紧凑和更密集的方式,并查看系数的大小。它大于 DFT 的两倍。DFT是对称的,你可以把它一分为二。一部分是多余的。还有一件事,DCT 可以存储的信息不仅仅是 DFT 的一半,而是近四分之一的 DFT。这通常是图像中 DCT 克服 DFT 的情况。

  • 有 50% 的重叠怎么样?

从这个问题中,我了解到您正在考虑以滑动傅里叶或频谱图的方式执行局部化块处理。

  • 是否可以使用 DCT 提供密度是 DFT 的两倍(bin 间距的一半)的幅度谱,还是会丢失异相信息?

如果你谈论幅度谱,当然部分相位(无论是复傅立叶系数的参数,还是 DCT 系数的符号)无论如何都会丢失

因此,您当然可以插入很多内核来代替短期傅里叶公式中的窗口傅里叶变换,仅用于分析。各种 DCT 品种,它们的重叠版本(LOT,MDCT),具有良好的正交和窗口属性,甚至可以反转(合成)。

在音频中,(非复杂)DCT 或重叠版本通常用于分析、开始和音高检测(盲源分离),例如 A. Liutkus 的STFT、MDCT 和反演Matlab 工具箱。时频率分析工具箱(LTFAT)还拥有:

  • 具有线性时频尺度的快速 TF 变换:Gabor (STFT)、Wilson 和加窗 MDCT
  • Gabor 和 WMDCT 域中的稀疏回归

我不太了解音频。但是,50% 或 75% 的重叠很常见,很少有人使用其他设置。然而,使用至少两种窗口大小是很常见的一个长的固定部分,一个短的用于瞬态,以帮助克服“单窗口”时频限制。