信息处理 - IP 口型同步 - 吾爱随笔录

IP 口型同步

信息处理声音的视频处理同步

2022-02-11 01:05:33

用于 IP 会议的唇形同步（音频/视频同步）最常用的技术是什么（以及播放缓冲的相关问题）？我可以找到很多关于音频流内同步的论文，但只有少数同时处理音频和视频。

1个回答

在讨论 IP 之前，我想提请您注意广播领域中使用的口型同步技术。这也是最棘手的问题之一，因为您不仅要保持非常准确的口型同步，而且还需要在电视网络的 24x7x365 全天候运行系统上做到这一点。

为了更深入地了解这一点，我建议阅读有关打包压缩音频/视频实际上是 MPEG2 -系统层的信息。请参阅：http: //downloads.bbc.co.uk/rd/pubs/reports/1996-02.pdf。第 8 节解释了时间同步方面。

本质上，每个编码器都会记录时间戳并将其标记在相应的音频视频上。稍后，当解码器播放它时，它会做两件事 - 第一，确保解码器自己的时钟被编码器的时钟“奴役”，第二，它确保每张图片都显示在屏幕上，并且音频帧在相应的时间准确地呈现给扬声器时间发生。这是音频与视频保持同步的唯一也是最好的方式。这些时间戳称为 PTS/DTS 值，其分辨率为 90 Khz 时钟。

现在这不是解决方案的结束。了解随着时间的推移时钟会出现偏差，但由于只引用了准确的时间，因此解码器播放完全按照相同的时间顺序。

现在主要的问题仍然是解码器的时钟需要保持在编码器时钟的控制/同步中。在 MPEG 中做的第一件事是在 27 MHz 处使用更高的精度（高 300 倍）。此外，这需要在中间的任何传输路径期间保持一致。（这称为时钟恢复过程）。

解释时间戳方案的详细论文在这里：MPEG-2 系统层的时间戳方案及其对接收器时钟恢复的影响 (1998)，作者：Christos Tryfonas、Anujan Varma、IEEE Transactions on Multimedia

这是另一篇被广泛引用的关于此作为一般理论的论文。 RP Singh、Sang-Hoon Lee、Chong-Kwoon Kim，“宽带分组网络中周期性流量的抖动和时钟恢复”，IEEE Trans。关于通讯，卷。42, No. 5, May 1994.或者这个A New Method for Clock Recovery in MPEG Decoders

现在来到 IP 网络

这里还有其他方面需要了解：

带宽的不确定性要高得多（即使在相当好的网络上）。
通常，系统同时为一个（单播）或更少（多播）用户提供服务，这与广播的更广泛假设不同。
与 24x7 实时广播相比，整个系统只有有限的持续时间。

几乎所有的基本原则都是一样的。但是，很少做额外的事情。

接收器需要保留一个明显更大的缓冲区。通常这是对 MPEG2 TS 案例中描述的缓冲区的补充。缓冲区越大，启动的延迟就越大，但内容用完的机会就越小。
如果您按照上述操作，则时钟数据包到达的时间用于解码器的时钟同步。实际上，在基于 IP 的系统中，解码器时钟同步通常会被忽略 - 因为即使您只运行 10 分钟的剪辑，时钟也会出现差异，但效果也不是很明显。但是，如果有较长的 VoD 会话，可能会应用这样的时钟恢复 - 但 IP 网络的抖动仍然会太大。

在这种情况下，在这种情况下使用RTP 协议，应用基于每个数据包的附加时间戳，这表明如果没有抖动，它将具有的典型理论到达时间。除此之外 - 为了使接收方的本地时钟与发送方的本地时钟同步，使用了基于 NTP 时间戳的数据包。RTP 流由接收方根据发送方生成的 RTCP SR 数据包中包含的信息进行同步。有关详细信息，请阅读RTP rfc的第 6 节，完整说明 RTCP 数据包如何用于同步。

其它你可能感兴趣的问题

上一篇如何在多标签预测中进行中值滤波下一篇为什么图像去模糊仍然是一个悬而未决的问题？