卷积神经网络优化了什么?

人工智能 神经网络 卷积神经网络 优化 卷积层 致密层
2021-11-12 04:02:08

在卷积神经网络中,确定超参数,例如内核数量和步幅、内核大小等。在卷积、ReLU 和池化层的某种组合之后,最后是全连接 (FC) 层,它会产生分类结果。我最初认为在训练过程中会优化内核的值,并且诸如边缘检测之类的内核是优化的结果。

但最后,如果我们在 FC 层有要优化的权重,那么在 CNN 训练期间优化的是什么?FCC 中的内核值和权重是否都得到优化?如果是这样,似乎我们正在处理两种不同类型的参数。两者如何同时训练?如果不是这样,是否有简单的内核集已知可以在 CNN 模块中工作并自动实现?

1个回答

FCC 中的内核值和权重是否都得到优化?

是的。

CNN 之前的一些图像处理神经网络设计具有单独的过滤器处理状态。例如,Sobel 滤波器是早期图像机器学习尝试中的流行选择,它们可以被认为是固定的类似 CNN 的层。他们可能仍然在某些项目中发挥作用。

然而,大多数用于图像的 CNN 架构现在直接处理像素数据,并且可以同时学习过滤器权重和完全连接的后续权重。

在某些用途中,例如迁移学习,能够选择性地仅学习某些层是有用的。您可以从一个在 ImageNet 上训练的非常通用的图像分类器中获取 CNN 过滤器层,并通过替换完全连接的层来重新调整它的用途。在训练新的神经网络时,您可以冻结过滤器层并仅学习全连接层 - 尽管没有特定要求仅通过卷积/全连接来分离它们,但您同样可以仅重新训练部分全连接层,或者包括一些卷积层。

如果是这样,似乎我们正在处理两种不同类型的参数。两者如何同时训练?

它们并没有那么不同。一个 CNN 可以被认为是完全连接的,但在卷积层上有一些额外的限制:

  • 将特征映射神经元连接到滤波器边界之外的输入的权重始终为零。

  • 特征图上每个位置的权重是相同的。

使用可学习的卷积过滤器会强制执行这两个约束。

与全连接层相比,反向传播在卷积层中的工作方式的实际区别在于,在反向传播时将特征图中每个“像素”产生的所有梯度与适当的滤波器权重相加。因此,与从上一层接收一个求和梯度更新的全连接层权重不同,每个卷积滤波器权重接收对下一个特征层中的所有像素求和的等效更新。根据您学习 CNN 的来源,这个额外的外部总和可能会显示或可能使用不同的更新规则表示法来暗示。