我正在阅读论文EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks并且无法理解这句话:
直观地说,复合缩放方法是有意义的,因为如果输入图像更大,那么网络需要更多的层来增加感受野,需要更多的通道来捕捉更大图像上更细粒度的模式。
在大图像的情况下,为什么网络需要更多的层来增加感受野?增加感受野是什么意思?增加它的宽度/高度?如果是这样,我们可以直接这样做而不增加网络中的层数吗?
“细粒度模式”是指我们在可视化卷积输出后可以看到的嘈杂形状吗?
我觉得我缺少/误解了一些明显的东西。