我很好奇在 CIFAR-10/100 或 ImageNet 等图像上使用 3D 卷积是否有任何优势。我知道它们通常不用于这个数据集,尽管它们可以,因为通道可以用作“深度”通道。
我知道只有3个渠道,但让我们更深入地思考一下。尽管输入图像仅使用 3 个通道,但它们可以在架构中更深入地使用。因此,我们可以在网络深度的任何一点上拥有类似的东西在哪里由过滤器的数量决定,然后应用内核大小小于的 3D 卷积在深度维度。
这样做有什么意义吗?这什么时候有用?什么时候没有帮助?
我假设(尽管我没有数学证明或任何经验证据)如果第一层聚合所有输入像素/激活并忽略局部性(如完全连接层或仅聚合特征空间中所有深度数的 conv2D),那么 3D 卷积不会做太多,因为早期的层无论如何都会破坏该维度中的局部结构。这听起来有道理,但缺乏任何证据或理论来支持它。
我知道深度学习使用经验证据来支持它的主张,所以也许有一些东西可以证实我的直觉?
有任何想法吗?
类似帖子: