在论文“ Hierarchical Attention Networks for Document Classification ”中,作者使用注意力将单词组合成句子,然后将句子组合成文档表示。他们利用上下文向量计算句子中每个单词注释的注意力权重。
该论文在第 2.2 节“上下文向量可以看作是对单词的固定查询“什么是信息词”的高级表示。词上下文向量是在训练过程中随机初始化和共同学习的。”
这意味着上下文向量独立于句子输入。每个句子都保持相同,并作为神经网络的参数来学习。如果是这种情况,将如何鉴于句子的含义如此多样化,因此可以准确地为随机句子中的单词提供注意力权重。
我不明白的工作原理,因为它独立于句子输入。
有人可以解释吗?