深度残差网络的图形错了吗?

数据挖掘 神经网络 深度学习 计算机视觉
2022-02-27 20:19:46

我目前想知道下面的深度残差网络图形是否错误:

在此处输入图像描述

我会说图形描述

φ(W2φ(W1x)+x) with φ=ReLU

我来说没有意义。假设两个权重层都是没有偏差的简单 MLP,其中第一个具有权重矩阵,第二个具有权重矩阵,那么是什么?F(x)W1W2F

在文本中,他们定义

F(x):=H(x)x

其中是“所需的底层映射”(无论这究竟意味着什么)。H(x)

此外,等式 (1) 对我来说似乎很奇怪: 在图 5 中,它们有两个权重层并称之为构建块。为什么这个方程只有一个权重矩阵?

y=F(x,{Wi})+x

我的想法

我认为作者的意思可能是 在这种情况下,在所在的图像中应该是 其中应该是

Fi=φ(Wix)
F(x)
F1(x)=φ(W1x)
F(x)+x
F2(F1(x))+x=φ(W2φ(W1x)+x)

2个回答

(根据图表),只是上运行的整个两层非线性链然后,最终输出就是就是这样!F(x)xF(x)+x=H(x)

可能让您感到困惑的是在这种情况下,它们并不意味着简单地包含一个操作。相反,它包含处理的任何一组操作,直到您添加为止。希望有帮助!F(.)Fxx

PS:在许多 DNN 文献中也经常看到这种类型的命名法,其中将整个深度非线性链称为例如,在生成对抗网络 (GAN)s 中,指的是整个深度网络致力于识别过程,而指的是整个网络致力于噪声整形。在这两种情况下,它们都由整个函数/网络组成,而不是简单地表示一个操作。D(x)D(x)G(x)

(已编辑)reddit/u/mostly_reasonable的答案

这里要注意的是F(x)可以指多于一层的功能。该论文的作者使用 'H(x)' 意思是'我们想在神经网络的某些(可能不止一个)连续层中学习的功能',请参阅他们的陈述

[...] 希望每几层直接堆叠 [...]

然后 'F(x)' 然后是相同的可能多层函数,减去残差。作者当然假设F(x)比学习更容易H(x). 所以我认为在图中F(x)除了 ('+x') 部分。请注意 F(x) 符号是如何相对于网络居中的,而不是附加到任一层。然后F(x)+x引用整个F(x)上面的两层网络与跳过连接相结合。