我目前想知道下面的深度残差网络图形是否错误:
我会说图形描述
对我来说没有意义。假设两个权重层都是没有偏差的简单 MLP,其中第一个具有权重矩阵,第二个具有权重矩阵,那么是什么?
在文本中,他们定义
其中是“所需的底层映射”(无论这究竟意味着什么)。
此外,等式 (1) 对我来说似乎很奇怪: 在图 5 中,它们有两个权重层并称之为构建块。为什么这个方程只有一个权重矩阵?
我的想法
我认为作者的意思可能是 在这种情况下,在所在的图像中应该是 其中应该是
我目前想知道下面的深度残差网络图形是否错误:
我会说图形描述
对我来说没有意义。假设两个权重层都是没有偏差的简单 MLP,其中第一个具有权重矩阵,第二个具有权重矩阵,那么是什么?
在文本中,他们定义
其中是“所需的底层映射”(无论这究竟意味着什么)。
此外,等式 (1) 对我来说似乎很奇怪: 在图 5 中,它们有两个权重层并称之为构建块。为什么这个方程只有一个权重矩阵?
我认为作者的意思可能是 在这种情况下,在所在的图像中应该是 其中应该是
(根据图表),只是上运行的整个两层非线性链。然后,最终输出就是。就是这样!
可能让您感到困惑的是。在这种情况下,它们并不意味着简单地包含一个操作。相反,它包含处理的任何一组操作,直到您添加为止。希望有帮助!
PS:在许多 DNN 文献中也经常看到这种类型的命名法,其中将整个深度非线性链称为。例如,在生成对抗网络 (GAN)s 中,指的是整个深度网络致力于识别过程,而指的是整个网络致力于噪声整形。在这两种情况下,它们都由整个函数/网络组成,而不是简单地表示一个操作。
(已编辑)reddit上/u/mostly_reasonable的答案
这里要注意的是可以指多于一层的功能。该论文的作者使用 '' 意思是'我们想在神经网络的某些(可能不止一个)连续层中学习的功能',请参阅他们的陈述
[...] 希望每几层直接堆叠 [...]
然后 '' 然后是相同的可能多层函数,减去残差。作者当然假设比学习更容易. 所以我认为在图中除了 ('') 部分。请注意 F(x) 符号是如何相对于网络居中的,而不是附加到任一层。然后引用整个上面的两层网络与跳过连接相结合。