人工智能 - 为什么激活函数在 CNN 中独立于层而不是卷积层的一部分？ - 吾爱随笔录

为什么激活函数在 CNN 中独立于层而不是卷积层的一部分？

人工智能神经网络卷积神经网络定义激活函数多层感知器

2021-11-15 12:02:56

我一直在阅读 CNN。不同的令人困惑的事情之一是人们总是谈论规范化层。常见的归一化层是 ReLU 层。但是我从来没有遇到过关于为什么突然之间激活函数在 CNN 中成为它们自己的层的解释，而它们只是MLP 中完全连接层的一部分。

为什么在 CNN 中有专用的激活层，而不是像 MLP 中的密集层那样将激活应用于卷积层的输出卷作为卷积层的一部分？

我想，最终，没有功能上的区别。我们也可以在 MLP 中使用单独的激活层，而不是在其全连接层中使用激活函数。但惯例的这种差异仍然令人恼火。好吧，假设它只是公约的产物。

1个回答

这些只是激活函数应用的两种等效解释（或说明）。换句话说，在多层感知器 (MLP) 中，您还可以将激活函数的应用说明为线性组合层之后的单独层。但是，在 MLP 的上下文中，数学相对简单和优雅，因此 MLP 的全连接层可以简单地表示如下

σ (W X + b)

$\sigma \left(\mathbf{W} \mathbf{X} + \mathbf{b} \right)$

在哪里 $\sigma$ 是一些激活函数和 $\mathbf{W} \mathbf{X}$ 是输入的线性组合， $\mathbf{X}$ ，以及权重， $\mathbf{W}$ ，和 $\mathbf{b}$ 是一种偏见。您甚至可以将完整或完整的 MLP（而不仅仅是一个全连接层）表示为复合（或嵌套）函数。

在卷积神经网络 (CNN) 的上下文中，人们可能会将激活函数的应用说明为一个单独的层，因为激活函数对 CNN 的卷积运算结果的应用是可选的并且不受欢迎（如本文http://cs231n.github.io/convolutional-networks所述），与 MLP 的情况相反，其中激活函数通常遵循线性组合。但是请注意，CNN 的最后一层通常是全连接层（而不是卷积层或池化层），也就是说，它们是输入和权重的线性组合，然后是激活函数的应用。

其它你可能感兴趣的问题

上一篇大多数输入为 0 的神经网络如何训练？下一篇GraphSage 是否使用硬注意力？