信息处理 - 离散余弦变换 - 吾爱随笔录

离散余弦变换

信息处理压缩

2022-02-17 02:12:24

这段文字（我写的）关于离散余弦变换是真的吗？

离散余弦变换 (DCT) 是一种有损数据压缩算法，用于许多压缩图像和视频格式，包括 JPEG、MJPEG、DV 和 MPEG。在该算法中，为每个 8x8 图像块计算特殊的 DCT 系数。然后对系数进行量化，并将图像块表示为这些量化系数的矩阵。该算法利用了人类视觉系统无法区分颜色或强度的微小变化这一事实。

4个回答

为了说明 Justme 的回答：

离散余弦变换 (DCT) 是有损的

DCT不可能是有损算法，因为有一个逆运算可以准确地恢复原始输入。

数据压缩算法

此外，它不是压缩算法：输入和输出具有相同的大小。

所以，你的两个中心陈述都是错误的:(

用于许多压缩图像和视频格式，

是的。

包括JPEG、MJPEG、DV和MPEG。

什么是DV？并且：MPEG 是一个庞大的视频压缩方法家族。没有“MPEG 算法”，在这个名称下有几十种不同的视频压缩标准。

在该算法中，为每个 8x8 图像块计算特殊的 DCT 系数。

这适用于 JPEG，可能还有许多 MPEG 编解码器中的一些。并非所有 MPEG 压缩器都是如此！（例如，MPEG-H Part II，也称为 H.265，使用 64×64、32×32 或 16×16、8×8 或 4×4 的块，具体取决于图像内容。）

然后对系数进行量化

这就是损失发生的地方：它不在 DCT 中，而是它的输出发生的事情！

并且图像块被表示为这些量化系数的矩阵。

同样，仅适用于 JPEG。要清楚这一点！

矩阵是它经常被可视化的方式。通常，矩阵表示实际上不存在于内存或存储格式中。相反，如果我们想象矩阵，元素通常以锯齿形对角线顺序存储。（这是因为这会使倾向于相互关联的值更接近，从而使结果更好地使用随后应用的无损方法（如 LZW、Huffmann）进行压缩。）

该算法利用了人类视觉系统无法区分颜色或强度的微小变化这一事实。

不，它利用了这样一个事实，即人类感知通常关心高频变化而不是低频分量的微小变化。否则，选择性量化将毫无意义。

嗯，你还没有写出最棒的一段。但我认为你正确理解了很多事情。更加小心地真正意识到什么是什么，你会没事的！

不，因为 DCT 本身不是压缩算法。但是不同的有损压缩算法确实使用 DCT 作为该过程的一部分。

DCT可用于将音频或图像数据等数据变换到频域，然后通过分析频域数据，可以确定有多少细节可以描述得更粗略或完全省略，只保留重要的数据.

因此，有损压缩发生在分析量化多少后对 DCT 输出进行量化时。

好的开始。让我们从另一个叙述的角度调整一下。这是编译后的版本：

离散余弦变换 (DCT) 是一种有损数据压缩算法，用于许多压缩图像和视频格式，包括 JPEG、MJPEG、DV 和 MPEG。在该算法中，在亮度和色度域中为每个 8x8 图像块计算特殊的 DCT 系数。然后对系数进行量化，并将图像块表示为这些量化系数的矩阵。该算法利用了人类视觉系统无法区分颜色或强度的微小变化（但取决于方向，例如水平或垂直）这一事实，特别是在对彩色图像数据进行适当转换的情况下。

现在，相同的版本，逐块：

离散余弦变换 (DCT)

它不是唯一定义的。有几个连续和离散版本，甚至是整数近似 (Int-DCT)。最经典的是名为DCT-II的离散版本，有时也称为“DCT”，但最好更准确一点：“离散余弦变换（称为 DCT-II）是”

是一种有损数据压缩算法

DCT 在理论上都是可逆的（直到计算精度）。DCT-II 具有良好的特性、快进和逆向算法，但它更像是一种集中方法而不是真正的压缩：“可以快速集中信息的许多离散数据（信号、图像）转换之一”

用于许多压缩图像和视频格式，包括 JPEG、MJPEG、DV 和 MPEG。

由于存在变体（例如用于音频的 MDCT）：“它直接或以改编的形式用于 JPEG、Motion JPEG、DV、MPEG、AVC 格式的音频、图像或视频压缩的许多标准实现中”

在该算法中，在亮度和色度域中为每个 8x8 图像块计算特殊的 DCT 系数。

我猜你的意思是“空间”？使用较小的尺寸意味着捕捉图像中的平稳性，并且标准中通常存在不同的尺寸。此外，在视频中，它们是使用复杂的运动补偿算法根据参考图像及其预测之间的差异来计算的。"对于图像或视频压缩，通常在 2D 中对像素块（或相对于参考帧的差异）计算 DCT，例如 $8\times 8$ 基线 JPEG 的图像块"

然后对系数进行量化，并将图像块表示为这些量化系数的矩阵。

该算法利用了人类视觉系统无法区分颜色或强度的微小变化（但取决于方向，例如水平或垂直）这一事实，特别是在对彩色图像数据进行适当转换的情况下。

我会交换论点：“ Wnen 图像块或其预测非常集中，量化它们允许在更少的位上存储信息（用于压缩），使用人类视觉系统对颜色或强度的微小变化不那么敏感的事实”。

附加链接：

DCT 的流行变体是一种可逆线性正交块变换，它恰好可以很好地逼近许多图像输入的（最佳）KLT 变换，它可以使用类似 FFT 的因式分解进行有效计算，并使其本身具有感知意义的“频率”，可以可用于利用人类感官系统的局限性。

通过将大部分信号能量集中到几个能量分量中，通常可以使用游程编码有效地对剩余的小/不重要系数的长期运行进行编码。

用于图像/视频压缩的 DCT 通常不重叠。随着压缩比的增加，这可能导致沿块边缘的错误不连续性。

由于不是信号自适应，dct 将有“去中心化”的输入。对于这些情况，不同的编解码器可能有回退，例如未转换。

其它你可能感兴趣的问题

上一篇如果数字信号具有频率分量，那么我们为什么不使用它下一篇图像处理中的“导数”是什么意思？