为什么 VGG 模型中特征图的数量会增加?

人工智能 机器学习 深度学习 卷积神经网络 vgg
2021-11-09 08:25:22

我发现下图是 CNN 的工作原理

图片

但我真的不明白。我想我确实了解 CNN,但我发现这张图非常令人困惑。

我的简化理解:

  • 已选择功能
  • 进行卷积以便查看这些特征适合的位置(在每个位置重复每个特征)

  • 池化用于缩小大图像(选择最适合的特征)。

  • ReLU 用于删除你的底片

  • 全连接层为决定图像应该属于哪个类别贡献了加权投票。

  • 这些加在一起,你就有机会知道图像是什么类别。

这张图片的困惑点给我:

  • 为什么我们要从一张图片出发224×224×3到两个图像224×224×64? 为什么减半继续?这是什么意思?

  • 它继续56×56×256. 为什么这个数字继续减半,而这个数字,最后,256,继续翻倍?

1个回答

为什么我们要从一张图片出发224×224×3到两个图像224×224×64?

他们用一个卷积1×1内核,与64过滤器。这样,您将尺寸保持为输入(224×224),但将过滤器的数量更改为 64。

这不是两个图像,而是两个层!

为什么减半继续?这是什么意思?

这是最大池化操作(层为红色,参见图例)。通常,最大池化应用的内核步幅为 2(很少为 3,但不会更多,因为您丢失了太多信息)。这样你的尺寸会减少 2,激活图更小,计算速度更快。

它继续56×56×256. 为什么这个数字继续减半,而这个数字,最后,256,继续翻倍?

仍然是最大池化。不过,没有理由将过滤器的数量增加一倍。这只是一种趋势,但您可以放置​​所需的过滤器数量。