如果我拿论文“深度残差学习用于图像识别”的图3,看看下面的残差网络:
转换,64 个过滤器
| (X) (suppose shape is 14*14*64
v
转换,128 个过滤器,步幅=2
| (X') (shape will be 7*7*128
v
转换,128 个过滤器
|
v (F(X) (shape will be 7*7*128)
因此,我必须(按元素)对不同形状的结果 求和。然而,虽然 卷积可以帮助获得相同的深度(特征数量),但为 X 和 F(X) 获得相同宽度/高度的传统方法是什么?
我应该计算 MaxPooling(X, stride=2) + F(X) 吗?