为什么激活函数在 CNN 中独立于层而不是卷积层的一部分?

人工智能 神经网络 卷积神经网络 定义 激活函数 多层感知器
2021-11-15 12:02:56

我一直在阅读 CNN。不同的令人困惑的事情之一是人们总是谈论规范化常见的归一化层是 ReLU 层。但是我从来没有遇到过关于为什么突然之间激活函数在 CNN 中成为它们自己的层的解释,而它们只是MLP 中完全连接层的一部分

为什么在 CNN 中有专用的激活层,而不是像 MLP 中的密集层那样将激活应用于卷积层的输出卷作为卷积层的一部分?

我想,最终,没有功能上的区别。我们也可以在 MLP 中使用单独的激活层,而不是在其全连接层中使用激活函数。但惯例的这种差异仍然令人恼火。好吧,假设它只是公约的产物。

1个回答

这些只是激活函数应用的两种等效解释(或说明)。换句话说,在多层感知器 (MLP) 中,您还可以将激活函数的应用说明为线性组合层之后的单独层。但是,在 MLP 的上下文中,数学相对简单和优雅,因此 MLP 的全连接层可以简单地表示如下

σ(WX+b)

在哪里σ是一些激活函数和WX是输入的线性组合,X,以及权重,W, 和b是一种偏见。您甚至可以将完整或完整的 MLP(而不仅仅是一个全连接层)表示为复合(或嵌套)函数

在卷积神经网络 (CNN) 的上下文中,人们可能会将激活函数的应用说明为一个单独的层,因为激活函数对 CNN 的卷积运算结果的应用是可选的并且不受欢迎(如本文http://cs231n.github.io/convolutional-networks所述),与 MLP 的情况相反,其中激活函数通常遵循线性组合。但是请注意,CNN 的最后一层通常是全连接层(而不是卷积层或池化层),也就是说,它们是输入和权重的线性组合,然后是激活函数的应用。