为什么我们在一个卷积层之后得到一个三维输出?

人工智能 卷积神经网络 计算机视觉 图像处理 卷积
2021-11-05 20:09:02

在卷积神经网络中,当我们将卷积应用于5×5图像与3×3内核,步幅1, 我们应该只得到一个4×4作为输出。在大多数 CNN 教程中,我们都有4×4×m作为输出。我不知道我们如何获得 3D 输出,也不知道我们需要如何计算m. 怎么m决定?为什么我们在一个卷积层之后得到一个三维输出?

1个回答

如果你有一个hi×wi×di输入,其中hi,widi分别是指输入的高度、宽度和深度,那么我们通常应用m hk×wk×di内核(或过滤器)到此输入(具有适当的步幅和填充),其中m通常是一个超参数所以,申请后m内核,您将获得m ho×wo×1所谓的特征图(也称为激活图),通常沿深度维度连接,因此您的输出将具有深度m(假设内核对输入的应用通常会产生二维输出)。出于这个原因,输出通常被称为输出量

在 CNN 的上下文中,内核是学习的,因此它们不是恒定的(至少在学习过程中,但是在训练之后,它们通常保持恒定,除非您执行持续的终身学习)。每个内核将与任何其他内核不同,因此每个内核将与输入进行不同的卷积(相对于其他内核),因此,每个内核将负责过滤(或检测)特定且不同的(与相对于其他内核)输入的特征,例如,可以是初始图像或另一个卷积层的输出。