ResNet 瓶颈架构的输入大小如何从 56x56x64 变为 56x56x356?

数据挖掘 美国有线电视新闻网 深度学习
2021-10-15 21:21:54

在 ResNet论文中,第一个残差块的输入大小为56x56x64,这是由第一层中的 7x7x64 滤波器引起的。但是,在论文中,他们展示了输入大小为 56x56x256 的残差块。如何从 56x56x64 更改为 56x56x256?

在此处输入图像描述

2个回答

我不确定答案,但我认为“256-d”指的是快捷连接而不是输入。由于 3 conv 的输出维度。右手图片(图 5)中的图层为 256,快捷方式从深度 64 转换为深度 256。

这是如何完成的,将在第 1 页的以下段落中进行解释。4:

残差网络。在上述普通网络的基础上,我们插入快捷连接(图 3,右),将网络转换为对应的残差版本。当输入和输出具有相同的维度时,可以直接使用恒等快捷方式(Eqn.(1))(图 3 中的实线快捷方式)。当维度增加时(图 3 中的虚线快捷方式),我们考虑两个选项:(A)快捷方式仍然执行恒等映射,为增加维度填充额外的零条目。该选项不引入额外参数;(B) Eqn.(2) 中的投影快捷方式用于匹配维度(通过 1×1 卷积完成)。对于这两个选项,当快捷方式跨越两种大小的特征图时,它们以 2 的步幅执行。

对于 ResNet-34,这对于图 1 所示的第一个构建块不需要。5 但也适用于以后的块。这如图 3 中的虚线所示:

图 3. ImageNet 的示例网络架构

这里 256-d 可以来自论文中称为 A、B、C 的三件事之一。

在哪里,

A → 零填充投影

B→投影快捷方式用于增加维度,其他快捷方式是身份。

C → 所有的捷径都是投影。

(如论文第 6 页所述)

在下面的 Resnet 块可视化中,应用了并行 1x1 操作,将 64 个过滤器转换为 256 个过滤器。

一个 Resnet 块