在像这样的视频电话会议上,当一张脸坍塌成一个漩涡状的黑洞时,是不是因为一些先进的基于人工智能的纠错出错了?

信息处理 视频处理 深度学习 视频压缩 人工智能
2022-01-30 14:03:43

在此新闻广播视频1中,显示了视频电话会议。被采访02:2302:37的脸似乎被吸进了一个黑洞;它开始旋转,似乎有一种看起来像视频回​​声效果的东西,人们会将相机对准监视器,视频输入有延迟。

但在这种情况下,我猜测它是某种基于人工智能的高级纠错,它试图根据以前的数据填充面部,但失败得很惨。

在 02:31 到 02:32 之间,您可以看到眼睛在明显偏离受访者头部左侧的位置闪烁。

面部区域不断地逆时针旋转,图表记录器就像从左到右的运动,受访者的衬衫领带所在的位置。

问:当有人在这样的视频电话会议上,人脸塌陷成一个漩涡状的黑洞时,是不是因为一些先进的基于人工智能的纠错出错了?


1视频提示02:23先关掉你的音量这不是为了宣传新闻视频或其内容/位置,而是只关注视频效果。

高质量的 GIF 可能会更好,但我不知道如何生成具有足够质量和长度以符合 2 MiB Stack Exchange 限制并准确再现效果的GIF。

视频会议的新闻视频截图,由于某些纠错算法出错,受访者的脸开始旋转 https://youtu.be/XzxMnF4gNIs?t=151

1个回答

这看起来就像在面临严重的数据丢失时非常“经典”的视频压缩所做的那样——注意非常典型的 MPEG 方形块,以及一些可能更多变化的块如何在您的静止图像中获得“更新”?这是因为,尽管最后一个参考帧丢失了,但解码器会尽力根据接收到的差异重建图像。

在视频中,有一个向右上方的运动——这可能只是经典的运动预测完全相同:在经历了数据包的擦除之后,继续最后一个已知的运动。由于人脸的不同部分朝不同的方向移动,我可以看到这会如何导致“卷曲”效果。它仅限于面部区域的事实可能只是意味着运动预测块被声明为仅限于该区域 - 这也具有形态学意义。

所以,不,这里没有什么特别的深度学习,但可能是更现代的 MPEG-4 变体之一,伴随着严重的数据包丢失,并且可能是一个尽最大努力避免这些问题的链接,同时受到最大值的严重限制允许的延迟(如果视频需要显示有人回答问题,则不能有 20 秒的交错)。