对传统图像(如 cifar10、imagenet)使用 3D 卷积有什么用处?

人工智能 深度学习 卷积神经网络 3d-卷积
2021-10-29 03:30:44

我很好奇在 CIFAR-10/100 或 ImageNet 等图像上使用 3D 卷积是否有任何优势。我知道它们通常不用于这个数据集,尽管它们可以,因为通道可以用作“深度”通道。

我知道只有3个渠道,但让我们更深入地思考一下。尽管输入图像仅使用 3 个通道,但它们可以在架构中更深入地使用。因此,我们可以在网络深度的任何一点上拥有类似的东西(CF,H,W)在哪里CF由过滤器的数量决定,然后应用内核大小小于的 3D 卷积CF在深度维度。

这样做有什么意义吗?这什么时候有用?什么时候没有帮助?

我假设(尽管我没有数学证明或任何经验证据)如果第一层聚合所有输入像素/激活并忽略局部性(如完全连接层或仅聚合特征空间中所有深度数的 conv2D),那么 3D 卷积不会做太多,因为早期的层无论如何都会破坏该维度中的局部结构。这听起来有道理,但缺乏任何证据或理论来支持它。

我知道深度学习使用经验证据来支持它的主张,所以也许有一些东西可以证实我的直觉?

有任何想法吗?


类似帖子:

1个回答

据我所知,传统的图像分类任务没有使用 3D CNN。

我认为的原因是,虽然这些图像确实有多个通道,但这些通道中没有空间信息可供 3D 卷积提取。另一方面,沿该维度取这些像素的加权和更有意义(就像 2D 卷积所做的那样)。

据我所知,3D CNN 仅用于具有体积数据的应用程序,即图像是连续的,并且在组合时形成大的 3D 图像。