在深度学习中的深度残差网络背景下,残差学习块到底是什么?

机器算法验证 机器学习 神经网络 深度学习 卷积神经网络 残差网络
2022-03-22 09:03:03

我正在阅读论文Deep Residual Learning for Image Recognition,我很难 100% 确定地理解残差块在计算上的含义。阅读他们的论文,他们有图 2:

在此处输入图像描述

这说明了残差块应该是什么。残差块的计算是否与以下内容相同:

y=σ(W2σ(W1x+b1)+b2+x)

或者是别的什么?

换句话说,也许要尝试匹配论文的符号,是:

F(x)+x=[W2σ(W1x+b1)+b2]+x

真的吗?

请注意,在圆圈求和之后,ReLU 这个词出现在纸上,所以一个 Residual Block 的输出(我表示为y) 应该:

σ(F(x)+x)=σ([W2σ(W1x+b1)+b2]+x)

具有额外的 ReLU 非线性σ.

1个回答

是的,这是真的,你可以看看他们的caffe 模型,看看它是如何实现的。