人工智能 - 为什么我们要在卷积神经网络中使用注意力，我们将如何应用它？ - 吾爱随笔录

注意力已广泛用于循环网络中，以对模型学习的特征表示进行加权。这不是一项简单的任务，因为循环网络具有捕获序列信息的隐藏状态。隐藏状态可以输入到一个小的 MLP 中，该 MLP 生成一个上下文向量，总结隐藏状态的显着特征。

在 NLP 的上下文中，卷积网络并不那么简单。他们有通道的概念，通道是输入的不同特征表示，但通道是否等同于隐藏状态？特别是，这对我提出了两个问题：

为什么要在卷积网络中使用注意力？卷积已被证明是熟练的特征检测器——例如，众所周知，较高层学习边缘等小特征，而较低层学习更多抽象表示。注意力会被用来分类和权衡这些特征吗？
在实践中，注意力如何应用于卷积网络？这些网络的输出通常是(batch, channels, input_size)（至少在 PyTorch 中），那么如何将循环网络中的注意力操作应用于卷积网络的输出呢？

参考

卷积序列到序列学习，Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin，2017