EfficientNet:复合缩放方法的直觉

数据挖掘 深度学习 神经网络 美国有线电视新闻网 计算机视觉 卷积神经网络
2021-10-12 05:48:42

我正在阅读论文EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks并且无法理解这句话:

直观地说,复合缩放方法是有意义的,因为如果输入图像更大,那么网络需要更多的层来增加感受野,需要更多的通道来捕捉更大图像上更细粒度的模式

  1. 在大图像的情况下,为什么网络需要更多的层来增加感受野?增加感受野是什么意思?增加它的宽度/高度?如果是这样,我们可以直接这样做而不增加网络中的层数吗?

  2. “细粒度模式”是指我们在可视化卷积输出后可以看到的嘈杂形状吗?

我觉得我缺少/误解了一些明显的东西。

1个回答

感受野是指卷积滤波器将操作的输入像素的数量。如果您只是对感受野大小如何随着深度和过滤器大小的变化而增长感到好奇,这里有一篇关于如何计算过滤器的感受野大小(具有很好的感受野大小可视化)和交互式计算器的不错的蒸馏文章。

感受野大小的增加通常来自添加层和增加内核大小。更大的内核对更多像素进行操作,从而扩大了感受野。增加网络的深度是指添加额外的卷积层。这些下游过滤器对初始转换产生的特征图进行操作。你的网络层,这增加了这些附加层中过滤器的感受野(如果不清楚,这是一个很好的指南)。distill 文章还详细介绍了其他操作如何影响感受野大小。

至于捕获的细粒度模式数量增加的说法,这更符合直觉,即更多的过滤器将为网络提供更多学习数据特定特征的方法。请参阅有关可视化卷积过滤器的文章,了解捕获的特征类型(本教程对象检测链接到一个很好的可视化)。

希望这可以帮助!