我想我不太了解组卷积。
假设您有 2 个组。这意味着参数的数量将减少一半。所以,假设你有一个图像和 100 个通道,过滤器大小为,您将有 900 个参数(忽略此示例的偏差)。如果你把它分成两组,如果我理解得很好,你将有 2 组 50 个通道。
这可以通过并行运行 2 个组来更快,但是参数数量如何减半?不是每个组都有参数,所以,你总共还有 900 个参数?它们是否意味着反向传播(在每个分支中)经过的参数数量减半?
因为总的来说,我看不出它是如何减少的。此外,使用更多组(甚至使用 100 组,每组 1 个频道)是否有不利之处?