我不确定 CNN 中卷积层的架构和机制的以下部分。可能,这取决于实现。
第一个问题:
假设我有 2 个卷积层,每个层有 10 个过滤器,输入张量的维度是 (例如,灰度图像)。将此输入传递给第一个卷积层会产生 10 个特征图(10 个,如果我们使用填充),每个都由不同的过滤器产生。
现在,当它被传递到第二个卷积层时实际发生了什么?是否所有 10 个特征图都作为一个大图通过张量 或 是平均 10 个特征图的重叠单元,并且张量被传递到下一个卷积层?前者会导致特征图随着卷积层数量的增加而爆炸式增长,空间复杂度将在, 在哪里是链式卷积层的数量。在将特征图传递到下一层之前对其进行平均将使复杂度保持线性。那么,它是什么?还是两种可能性都常用?
第二个问题(有两个子问题):
a) 这是一个类似的问题。如果我的输入音量为(例如 RGB 图像),我又有 2 个卷积层和 10 个过滤器,每个卷积层实际上有 30 个过滤器吗?那么10组3个过滤器,每个通道一个?或者我实际上只有 10 个过滤器并且过滤器应用于所有 3 个通道?
b)这与问题(1)相同,但对于通道:一旦我在输入张量上卷积了一个过滤器(由三个通道过滤器组成?(a)),我最终得到 3 个特征图。每个频道一个。我该怎么处理这些?我是否将它们按组件平均?或者我是否将它们分开,直到我对输入的所有 10 个过滤器进行卷积,然后平均每个通道的 10 个特征图?或者我是否平均所有三个通道的所有 30 个特征图?还是我只是将 30 个特征图传递给下一个卷积层,这些层又知道这些特征图中的哪些属于哪个通道?
相当多的可能性......我咨询过的资料都没有明确说明这一点。也许是因为它取决于个人的实施。
无论如何,如果有人可以稍微消除这种混乱,那就太好了!