在图像的有损压缩中使用数字余弦变换

信息处理 图像处理 离散信号 压缩 JPEG
2022-01-31 10:23:05

我正在阅读有关数字余弦变换(DCT Type-I)的信息,它在 JPEG 中的使用。我有以下疑问。我的老师给出了一个不太令人信服的解释。数字余弦变换的哪些特性使其对图像压缩具有吸引力?为什么不使用数字正弦变换?更具体地说,使用 DCT 背后的直觉是什么?

2个回答

矩形数据窗口的前后边缘之间可能存在不连续性。该窗口的 F​​FT 表示在一堆高频区间中具有能量的圆形边缘不连续性。取那段信号并将其镜像到一个边缘。请注意,它的圆形或周期性扩展不再具有跨边缘的不连续性。因此,该双镜像信号的 FFT 可能在高分档中具有较少的信息能量。因此,可能有更多的这些高分箱可以通过压缩算法“丢弃”而不会造成重大损害(信息丢失)。

DCT 是双镜乘积的 FFT。由于镜像中间向量是对称的,因此可以通过丢弃仅对正弦分量所需的任何计算来获得一些效率,因为它们无论如何都将为零。

DST 将是双重镜像逆信号的 FFT,这会使不连续性变得更糟,这会将更多的信息/能量传播到您真正想丢弃的垃圾箱中,从而使事情变得更糟用于简单但有损压缩。

与 DFT 不同,DCT 输出实数(非复数)系数。这允许具有较小的输出(不应存储相位)。此外,它对应于 DFT 中一种特殊类型的边界条件,很容易被实现处理:对称信号。这使得 2 个论点支持 DCT。

与 DFT 一样,DCT 产生的输出具有很少的重要系数,因此它用于压缩,更普遍地用于稀疏算法。这仅仅对应于图像中并非所有可能的空间频率都存在,而只是一个子集(例如,通常有许多水平和垂直线)的事实。