CNN 卷积层中的 8 个过滤器两次和一个 16 个过滤器有什么区别?
数据挖掘
美国有线电视新闻网
卷积神经网络
卷积
2022-02-15 12:23:13
1个回答
每一层都有一个有限的数量,它可以转换它下面的层。有一个线性分量(其下层输出的加权和)和一个非线性分量(通常是 ReLU)。
在全连接网络中,理论上可以用足够大的单层来逼近任何函数。然而,一堆类似的较小层使用更少的资源更具表现力。这意味着对于相同数量的参数,您可以使用更灵活的函数逼近器。在目标函数的某种复杂程度下,使单个层更宽的成本(在 CPU 时间、所需数据和训练工作量方面)高于堆叠更多类似层的成本。
此外,对于 CNN,您必须担心感受野。由于内核的宽度,任何特征图只能表达过滤器可以“看到”的值。随着您添加更多层,应用的每个内核都会扩展最后一层中的特征有效计算的基础图像的宽度和高度。如果你在卷积层之后还有一个全连接层,那么理论上你可以用一个非常大的全连接层来弥补一个糟糕的感受野——但是你又回到了第一个问题,即参数多于参数的宽网络学习函数是绝对必要的。
其它你可能感兴趣的问题
