GAN 生成的视频中的平均内容距离是什么意思?

数据挖掘
2022-02-13 21:22:23

我正在阅读关于生成/合成视频的研究论文:
MoCoGAN: Decomposing Motion and Content for Video Generation

为了评估生成的视频,他们使用了一个名为“平均内容距离”的指标。我在谷歌上找不到与此相关的任何材料。谁能解释一下平均内容距离是什么意思?

这是论文的片段

我们首先计算了每一帧中生成形状的平均颜色。然后每个帧都由一个 3 维向量表示。然后由每帧平均颜色向量的平均成对 L2 距离给出 ACD。

我从中了解到如下:
对于每一帧,将 rgb 转换为灰色(颜色的平均值)。然后对于连续帧,计算 l2 距离。

1MNx=1My=1N(Framei(x,y)Framei+1(x,y))2
这给出了 ACD。我理解正确了吗?

另外,这个指标如何代表视频的质量?如何使用它来比较不同生成视频的质量?您也可以向我指出一些参考资料。

谢谢!

1个回答

本文介绍了两种实现 ACD 指标的方法。您谈论ACD-I(使用文章的符号)。据我了解,

  • 您首先对所有帧中的每种颜色进行平均颜色,即对图像平面中的像素求和:avgi=1MNx,yFramei.
  • 然后,在生成的每两个连续向量的 3D 向量中,计算 L2 距离:di=l=13(avgi,lavgi+1,l)2. 通常,您可能希望使用其他距离,这并不被禁止。
  • 总结起来(因为我们考虑了我们拥有的所有帧,而不仅仅是一对)并除以帧数(因为度量不应该依赖于它[至少,我想是这样],否则更长的视频会更大公制值):ACD=1K1idi(如果有 K 帧)。

ACD-C以相同的方式获得,但您使用从具有“类似编码”网络的图像(帧)中提取的特征向量来代替帧。在处理面部表情时,OpenFace 可能是一个不错的选择。

您的公式可能与作者的意图不同。想象一下黑屏上的白点。从一帧到另一帧,该点逐渐从一侧移动到另一侧。您的指标显示此视频中的内容正在发生变化。并且点移动得越快,发生的变化就越大(好的,如果点和黑屏以一定速度达到饱和点,您的指标将停止变化[当在一帧中点移动的距离等于到它的直径],但这是另一回事)但是,实际上内容并没有变化。你仍然有现场和黑屏。这就是您需要平均的原因(而不是将“变化”相加并使其独立于图像大小 - 这就是您的公式所做的)


在这里你可以看到 ACD metric(s) 的实现我不能保证这是 100% 正确的。所以,让我知道是否有任何不确定性。