数据挖掘 - 深度残差网络的图形错了吗？ - 吾爱随笔录

深度残差网络的图形错了吗？

数据挖掘神经网络深度学习计算机视觉

2022-02-27 20:19:46

我目前想知道下面的深度残差网络图形是否错误：

我会说图形描述

φ (W_{2} φ (W_{1} x) + x) with φ = R e L U

$\varphi \left (W_2 \varphi(W_1 x) + x \right ) \qquad \text{ with } \varphi = ReLU$

对我来说没有意义。假设两个权重层都是没有偏差的简单 MLP，其中第一个具有权重矩阵，第二个具有权重矩阵，那么是什么？ $\mathcal{F}(x)$ $W_1$ $W_2$ $\mathcal{F}$

在文本中，他们定义

F (x) := H (x) - x

$\mathcal{F}(x) := \mathcal{H}(x) - x$

其中是“所需的底层映射”（无论这究竟意味着什么）。 $\mathcal{H}(x)$

此外，等式 (1) 对我来说似乎很奇怪：在图 5 中，它们有两个权重层并称之为构建块。为什么这个方程只有一个权重矩阵？

y = F (x, {W_{i}}) + x

$y = \mathcal{F}(x, \{W_i\}) + x$

我的想法

我认为作者的意思可能是在这种情况下，在所在的图像中应该是其中应该是

F_{i} = φ (W_{i} x)

$\mathcal{F}_i = \varphi(W_i x)$

F (x)

$\mathcal{F}(x)$

F_{1} (x) = φ (W_{1} x)

$\mathcal{F}_1(x) = \varphi(W_1 x)$

F (x) + x

$\mathcal{F}(x) + x$

F_{2} (F_{1} (x)) + x = φ (W_{2} φ (W_{1} x) + x)

$\mathcal{F}_2(\mathcal{F}_1(x)) + x = \varphi \left (W_2 \varphi(W_1 x) + x \right )$

2个回答

（根据图表），只是上运行的整个两层非线性链。然后，最终输出就是。就是这样！ $F(x)$ $x$ $F(x) + x = H(x)$

可能让您感到困惑的是。在这种情况下，它们并不意味着简单地包含一个操作。相反，它包含处理的任何一组操作，直到您添加为止。希望有帮助！ $F(.)$ $F$ $x$ $x$

PS：在许多 DNN 文献中也经常看到这种类型的命名法，其中将整个深度非线性链称为。例如，在生成对抗网络 (GAN)s 中，指的是整个深度网络致力于识别过程，而指的是整个网络致力于噪声整形。在这两种情况下，它们都由整个函数/网络组成，而不是简单地表示一个操作。 $D(x)$ $D(x)$ $G(x)$

（已编辑）reddit上/u/mostly_reasonable的答案

这里要注意的是 $F(x)$ 可以指多于一层的功能。该论文的作者使用 ' $H(x)$ ' 意思是'我们想在神经网络的某些（可能不止一个）连续层中学习的功能'，请参阅他们的陈述

[...] 希望每几层直接堆叠 [...]

然后 ' $F(x)$ ' 然后是相同的可能多层函数，减去残差。作者当然假设 $F(x)$ 比学习更容易 $H(x)$ . 所以我认为在图中 $F(x)$ 除了 (' $+ x$ '）部分。请注意 F(x) 符号是如何相对于网络居中的，而不是附加到任一层。然后 $F(x) + x$ 引用整个 $F(x)$ 上面的两层网络与跳过连接相结合。

其它你可能感兴趣的问题

上一篇从 3d_plot 计算体积下一篇在降低维度的同时保留解释的方差