如何计算φ, j _ϕi,j在 VGG19 网络中?

数据挖掘 深度学习 美国有线电视新闻网 特征提取 vgg16
2022-02-17 14:08:01

在 Christian Ledig 等人的论文Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network中,图像之间的距离(用于损失函数)是根据从VGG19 中提取的计算的网络, 其中定义为“在第 i 个最大池化层之前通过第 j 个卷积(激活后)获得的特征图”。 ϕi,j
ϕi,j

您能否详细说明如何计算此特征图,可能是针对论文中提到的 VGG54?

ϕ5,4 表示第 5 个最大池化层之前的第 4 个卷积层,对吗?但是第 4 层有 512 个过滤器。所以我们将有 512 个特征空间。从这个中选择哪一个?另外“激活后”是什么意思?

我发现这个答案与同一问题有关,但答案并没有解释太多。

1个回答

在论文的第 2.2.1 节中,他们声明他们使用欧几里得距离。我相信你的话,那一层有 512 个过滤器激活;如果我没看错的话,没有 512 个特征空间,有一个 512 维特征空间,他们正在计算欧几里得距离。所以两个图像之间的距离函数只是标准的欧几里得距离公式:pq

d(p,q)=i=1512(piqi)2

其中的相应滤波器激活的向量pqpq


编辑:水平规则上方是我原来的答案,这是错误的(或不完整的)。层的特征图中的每个位置采用上述欧几里得距离,并对这些距离进行平均以生成标量损失值。因此,对于 7x7 特征图,他们将采用 49 512 维欧几里德距离并将它们平均以获得 VGG19 5,4 损失。这就是我在他们的论文中阅读第 2.2.1 节中的等式 (5) 的方式。我认为缺少的部分是作者不关心欧几里得距离公式中的平方根。如下所述,我认为符号不清楚。i,j