深度学习可以应用于视频压缩吗?

信息处理 视频处理 视频压缩
2022-01-15 09:39:35

H.265 基于随时间的增量增益。范式在很大程度上保持不变。深度学习提供巨大性能提升的可能性有多大?这是主要指标:

  1. 在比特率提高 2 倍时,感知质量保持不变。
  2. 假设编码器的计算能力不受限制。
  3. 不需要速度。

当然,我理解这是一个非常不适定的问题,因为涉及的因素太多了。但是,如果可以做到,那会给性能带来什么好处呢?是以下吗?

  1. 更大的 CTU,而不是 H.265 中的 64x64。甚至可能转向基于对象的编码。
  2. 更好的块匹配算法映射更长的依赖关系。
  3. 块匹配而不是 MAD 或 MSE 的感知损失。
  4. 等等...
3个回答

[编辑:添加 2017 年 3 月的预印本]

深度学习已经在视频中有很多应用,比如增强(Decompressed Video Enhancement 的深度卷积神经网络)或语义分析。

最近,有一些与视频压缩相关的公告,例如:

传统的图像和视频压缩算法依赖于手工制作的编码器/解码器对(编解码器),这些编码器/解码器对缺乏适应性并且与被压缩的数据无关。在这里,我们描述了生成压缩的概念,即使用生成模型压缩数据,并展示了它在图像和视频数据的更深压缩级别上产生更准确和视觉上令人愉悦的重建的潜力。我们还证明,与传统的可变长度熵编码方案相比,生成压缩对误码率(例如来自嘈杂的无线信道)更具弹性几个数量级。

深度学习在这里有多重要,以及获得了哪些性能我还不清楚。

好吧,视频压缩本质上是将视频的表示更改为中间表示,以便可以使用该表示将原始视频恢复到尽可能好的程度。您存储的是更短的表示,而不是完整的视频。

好吧,这样说立刻让我想起了(卷积)自动编码器。让我们从图像开始:给定输入图像,自动编码器尝试使用编码器-解码器方案恢复原始图像,其中中间层由一个短的权重向量组成,可以作为图像的特征。它们被证明是非常好的函数逼近器。

视频基本上是体积 3D 图像,其中每张幻灯片对应一个图像帧。然后可以考虑设计一个自动编码器来同时恢复切片,再次使用更短的表示。可以将此卷滑过视频帧并压缩视频。

压缩器 = 编码器,解压缩器 = 解码器。就这么简单。更高级的网络,明确使用时间信息可能会受益于 LSTM。

这种方法是无监督的。所以你只需要一堆视频。

话虽如此,我不会争论性能有多好,因为它实际上取决于网络设计。

使用深度学习进行端到端压缩非常困难(DL 与 HEVC 等传统视频压缩相比。

HEVC 设计目标是为超高清解决方案提供高效、硬件友好的视频编码。我们在编码器上有无限的权力,但在解码器上没有,硬件视频编码器的限制来自内存评估。HEVC 处理 CTU (64x64) 作为一个处理单元和几张高清或超高清尺寸 (1920 x 1080) 的参考图片。所有的参数,变换矩阵都是直接写在源码中的。现在,与基于 DL 的编码相比,如果处理多个帧并且必须加载学习的权重,您会惊奇地发现 DL 需要多少复杂性和内存访问。

此外,DN 可以像自动编码器一样进行降维,但它完全错过了“编码”部分。我们不能以浮点形式传输特征。我们需要通过量化对其进行分解,进一步,通过熵编码和高级语法去除统计冗余以形成比特流。很少有研究专注于压缩网络本身。

此外,传统的视频标准执行穷举搜索。他们尝试了所有可能的情况,这些情况在速率和失真方面都有所提高。率失真优化为 HEVC 带来显着收益。