我正在阅读关于生成/合成视频的研究论文:
MoCoGAN: Decomposing Motion and Content for Video Generation
为了评估生成的视频,他们使用了一个名为“平均内容距离”的指标。我在谷歌上找不到与此相关的任何材料。谁能解释一下平均内容距离是什么意思?
这是论文的片段
我们首先计算了每一帧中生成形状的平均颜色。然后每个帧都由一个 3 维向量表示。然后由每帧平均颜色向量的平均成对 L2 距离给出 ACD。
我从中了解到如下:
对于每一帧,将 rgb 转换为灰色(颜色的平均值)。然后对于连续帧,计算 l2 距离。
这给出了 ACD。我理解正确了吗?
另外,这个指标如何代表视频的质量?如何使用它来比较不同生成视频的质量?您也可以向我指出一些参考资料。
谢谢!