数据挖掘 - GAN 生成的视频中的平均内容距离是什么意思？ - 吾爱随笔录

GAN 生成的视频中的平均内容距离是什么意思？

数据挖掘甘

2022-02-13 21:22:23

我正在阅读关于生成/合成视频的研究论文：
MoCoGAN: Decomposing Motion and Content for Video Generation

为了评估生成的视频，他们使用了一个名为“平均内容距离”的指标。我在谷歌上找不到与此相关的任何材料。谁能解释一下平均内容距离是什么意思？

这是论文的片段

我们首先计算了每一帧中生成形状的平均颜色。然后每个帧都由一个 3 维向量表示。然后由每帧平均颜色向量的平均成对 L2 距离给出 ACD。

我从中了解到如下：
对于每一帧，将 rgb 转换为灰色（颜色的平均值）。然后对于连续帧，计算 l2 距离。

\frac{1}{M N} \sum_{x = 1}^{M} \sum_{y = 1}^{N} (F r a m e_{i} (x, y) - F r a m e_{i + 1} (x, y))^{2}

$\frac{1}{MN} \sum_{x=1}^{M}\sum_{y=1}^{N}{(Frame_i(x,y) - Frame_{i+1}(x,y))^2}$ 这给出了 ACD。我理解正确了吗？

另外，这个指标如何代表视频的质量？如何使用它来比较不同生成视频的质量？您也可以向我指出一些参考资料。

谢谢！

1个回答

本文介绍了两种实现 ACD 指标的方法。您谈论ACD-I（使用文章的符号）。据我了解，

您首先对所有帧中的每种颜色进行平均颜色，即对图像平面中的像素求和： $\mathrm{avg}_i = \frac{1}{MN}\sum_{x,y}\mathrm{Frame}_i$ .
然后，在生成的每两个连续向量的 3D 向量中，计算 L2 距离： $d_i = \sqrt{\sum_{l=1}^3(\mathrm{avg}_{i,l} - \mathrm{avg}_{i+1,l})^2}$ . 通常，您可能希望使用其他距离，这并不被禁止。
总结起来（因为我们考虑了我们拥有的所有帧，而不仅仅是一对）并除以帧数（因为度量不应该依赖于它[至少，我想是这样]，否则更长的视频会更大公制值）： $\mathrm{ACD} = \frac{1}{K-1}\sum_i d_i$ （如果有 K 帧）。

ACD-C以相同的方式获得，但您使用从具有“类似编码”网络的图像（帧）中提取的特征向量来代替帧。在处理面部表情时，OpenFace 可能是一个不错的选择。

您的公式可能与作者的意图不同。想象一下黑屏上的白点。从一帧到另一帧，该点逐渐从一侧移动到另一侧。您的指标显示此视频中的内容正在发生变化。并且点移动得越快，发生的变化就越大（好的，如果点和黑屏以一定速度达到饱和点，您的指标将停止变化[当在一帧中点移动的距离等于到它的直径]，但这是另一回事）。但是，实际上内容并没有变化。你仍然有现场和黑屏。这就是您需要平均的原因（而不是将“变化”相加并使其独立于图像大小 - 这就是您的公式所做的）

在这里你可以看到 ACD metric(s) 的实现。我不能保证这是 100% 正确的。所以，让我知道是否有任何不确定性。

其它你可能感兴趣的问题

上一篇如何将二元分类器转换为多类分类器？下一篇为什么可以忽略 MAP 中的先验？