什么时候应该使用 3D 卷积?

人工智能 卷积神经网络 参考请求 卷积 卷积层 3d-卷积
2021-10-24 23:45:11

我是卷积神经网络的新手,我正在学习 3D 卷积。我能理解的是,2D 卷积为我们提供了 XY 维度中低级特征之间的关系,而 3D 卷积有助于检测所有 3 维中的低级特征和它们之间的关系。

考虑一个使用 2D 卷积层来识别手写数字的 CNN。如果一个数字,比如 5,用不同的颜色写成:

在此处输入图像描述

严格的 2D CNN 会表现不佳(因为它们在 z 维度上属于不同的通道)?

此外,是否存在采用 3D 卷积的实用知名神经网络?

2个回答

当您想要提取 3 维中的特征或建立 3 维之间的关系时,使用 3D 卷积。

本质上,它与 2D 卷积相同,但内核移动现在是 3 维的,从而更好地捕获 3 维内的依赖关系以及卷积后输出维度的差异。

如果内核的深度小于特征图的深度,则 3d 卷积的内核将在 3 维中移动。

这

另一方面,对 3-D 数据进行 2-D 卷积意味着内核将仅在 2-D 中遍历。当特征图的深度与内核的深度(通道)相同时,就会发生这种情况。

这里

一些用于更好理解的用例是

  • MRI 扫描需要了解一堆图像之间的关系;

  • 用于时空数据的低级特征提取器,例如用于手势识别、天气预报等的视频(3-D CNN 仅在多个短时间间隔内用作低级特征提取器,因为 3D CNN 无法捕获长期时空时间依赖性 - 更多信息请查看ConvLSTM或此处的替代视角。)

大多数从视频数据中学习的 CNN 模型几乎总是将 3D CNN 作为低级特征提取器。

在您上面提到的关于数字 5 的示例中,2D 卷积可能会表现得更好,因为您将每个通道强度视为它所拥有的信息的聚合,这意味着学习几乎与黑色相同和白色图像。另一方面,为此使用 3D 卷积会导致学习在这种情况下不存在的通道之间的关系!(此外,深度为 3 的图像上的 3D 卷积需要使用非常罕见的内核,尤其是对于用例)

当您想从 3 维输入中提取空间特征时,应使用 3D 卷积。对于计算机视觉,它们通常用于体积图像,即 3D。

一些示例是对 3D 渲染图像进行分类医学图像分割