注意力已广泛用于循环网络中,以对模型学习的特征表示进行加权。这不是一项简单的任务,因为循环网络具有捕获序列信息的隐藏状态。隐藏状态可以输入到一个小的 MLP 中,该 MLP 生成一个上下文向量,总结隐藏状态的显着特征。
在 NLP 的上下文中,卷积网络并不那么简单。他们有通道的概念,通道是输入的不同特征表示,但通道是否等同于隐藏状态?特别是,这对我提出了两个问题:
为什么要在卷积网络中使用注意力?卷积已被证明是熟练的特征检测器——例如,众所周知,较高层学习边缘等小特征,而较低层学习更多抽象表示。注意力会被用来分类和权衡这些特征吗?
在实践中,注意力如何应用于卷积网络?这些网络的输出通常是
(batch, channels, input_size)(至少在 PyTorch 中),那么如何将循环网络中的注意力操作应用于卷积网络的输出呢?
参考
卷积序列到序列学习,Jonas Gehring、Michael Auli、David Grangier、Denis Yarats、Yann N. Dauphin,2017