一堆空洞卷积的感受野是多少?

机器算法验证 机器学习 神经网络 深度学习 卷积
2022-04-20 11:51:24

我正在阅读Wavenet 论文,上面写着:

堆叠的空洞卷积使网络具有非常大的感受野,只有几层,同时保持整个网络的输入分辨率以及计算效率。在本文中,每一层的膨胀都加倍,直到一个极限,然后重复:例如,

1, 2, 4, ..., 512, 1, 2, 4, ..., 512, 1,2,4, ..., 512。

...每个 1、2、4、...、512 块的感受野大小为 1024...堆叠这些块进一步增加了模型容量和感受野大小。

我试图了解在 1、2、4、...、512 的第 N 个块之后的感受野是什么。在第二个块之后,是 1024*1024,在第三个块之后是 1024^3 吗?还是我误解了感受野大小是如何扩大的?

1个回答

我认为应该是1024*3。

在第一个块之后,输出的感受野的索引应该是 1-1024、2-1025、3-1026 等(假设没有填充,但感受野大小应该与填充相同)。当您制作第二个块的感受野大小为 1024 时,该块的第一个输出将“看到”感受野索引为 1-1024、2-1025、... 1024-2048 的输出。所以它的感受野覆盖了1-2048。因此,我认为每个块只会将 1024 添加到整体感受野大小。

一般来说,我认为层 l 的感受野大小 s 的公式应该是:

sl0=1

sli=sli+(kernelsize1)dilationfactor

如果这是正确的,它们的内核大小似乎是 2(达到 1024 的感受野大小),这有点令人惊讶,我希望这不是由于我的逻辑错误:)

在处理了前一个块中较大的感受野之后,块的堆叠对于在更细粒度的级别上细化输出也可能更有用,而不仅仅是最大限度地增加感受野的大小。