我发现 Imagenet 和其他大型 CNN 使用了局部响应归一化层。但是,我找不到关于他们的那么多信息。它们有多重要,何时应该使用它们?
来自http://caffe.berkeleyvision.org/tutorial/layers.html#data-layers:
“局部响应归一化层通过对局部输入区域进行归一化来执行一种“横向抑制”。在 ACROSS_CHANNELS 模式下,局部区域跨越附近的通道,但没有空间范围(即,它们的形状为 local_size x 1 x 1) . 在 WITHIN_CHANNEL 模式下,局部区域在空间上扩展,但在不同的通道中(即,它们的形状为 1 x local_size x local_size)。每个输入值除以 (1+(α/n)∑ix2i)β,其中 n是每个局部区域的大小,总和取自以该值为中心的区域(必要时添加零填充)。
编辑:
似乎这些类型的层影响很小,不再使用。基本上,它们的作用已经被其他正则化技术(例如 dropout 和批量标准化)、更好的初始化和训练方法所取代。有关更多详细信息,请参阅下面的答案。