在经典的神经网络中,我们认为每一层只与下一层相连。如果我们放宽这个约束并允许它连接到任何或所有后续层怎么办?是否探索过这种架构?似乎反向传播仍然可以解决这个问题。
至少,这种类型的网络可以通过在每一层人工创建身份神经元来模拟,这些神经元会引入每个较早节点的值,其中这些层的传入权重固定为 1。
在经典的神经网络中,我们认为每一层只与下一层相连。如果我们放宽这个约束并允许它连接到任何或所有后续层怎么办?是否探索过这种架构?似乎反向传播仍然可以解决这个问题。
至少,这种类型的网络可以通过在每一层人工创建身份神经元来模拟,这些神经元会引入每个较早节点的值,其中这些层的传入权重固定为 1。
您所描述的内容已在深度残差神经网络中进行了探索。
残差块将来自标准架构(如 CNN)的两个或多个块与跳跃连接组合,该跳跃连接将第一个块的输入添加到最后一个块的输出。
直觉是,深度网络越来越难以学习层之间的身份函数,这已被证明是有用的,尤其是在图像识别任务中。残差连接也减轻了梯度消失的问题。
残留连接有助于解决“退化”问题,其中更深的架构会导致准确性降低。例如,GoogLeNet在 2014 年以22层 CNN赢得了ILSVRC,但在 2015 年 Microsoft ResNet以152层 Res Net 获胜。