在 2D 或 3D 实现的情况下,我对深度学习中用于图像处理的卷积层的作用和机制有一个很好的一般理解——它们“简单地”尝试捕捉图像中的 2D 模式(在 3D 的情况下在 3 个通道中)。
但是最近我在自然语言处理的上下文中碰到了 1D 卷积层,这对我来说是一种惊喜,因为在我的理解中,2D 卷积特别用于捕获无法以 1D(向量)形式显示的 2D 模式的图像像素。一维卷积背后的逻辑是什么?
在 2D 或 3D 实现的情况下,我对深度学习中用于图像处理的卷积层的作用和机制有一个很好的一般理解——它们“简单地”尝试捕捉图像中的 2D 模式(在 3D 的情况下在 3 个通道中)。
但是最近我在自然语言处理的上下文中碰到了 1D 卷积层,这对我来说是一种惊喜,因为在我的理解中,2D 卷积特别用于捕获无法以 1D(向量)形式显示的 2D 模式的图像像素。一维卷积背后的逻辑是什么?
简而言之,卷积的维数没有什么特别之处。如果适合问题,则可以考虑卷积的任何维度。
维数是所解决问题的属性。例如,1D 用于音频信号,2D 用于图像,3D 用于电影。. .
简单地忽略维数,在处理某些类型的数据时,与全连接模型相比,以下可以被认为是卷积神经网络 (CNN) 的优势:
与通过全连接网络处理的相同数据相比,卷积处理的每个位置使用共享权重显着减少了需要学习的参数数量。
共享权重是正则化的一种形式。
卷积模型的结构对数据中的局部关系做出了强有力的假设,当它为真时,它非常适合问题。
3.1 局部模式提供良好的预测数据(和/或可以有效地组合成更高层中更复杂的预测模式)
3.2 数据中发现的模式类型可以在多个地方找到。在一组不同的数据点中找到相同的模式是有意义的。
CNN 的这些属性与维数无关。一维 CNN 使用一维模式,并且往往在固定长度信号的信号分析中有用。例如,它们非常适合分析音频信号。也适用于一些自然语言处理——尽管允许不同序列长度的循环神经网络可能更适合那里,尤其是那些具有记忆门安排的网络,如 LSTM 或 GRU。CNN 仍然可以更容易管理,您可以简单地将输入填充为固定长度。