使用上下文向量的注意力:文档分类的分层注意力网络

数据挖掘 机器学习 神经网络 深度学习
2021-09-14 19:09:19

在论文“ Hierarchical Attention Networks for Document Classification ”中,作者使用注意力将单词组合成句子,然后将句子组合成文档表示。他们利用上下文向量uw计算句子中每个单词注释的注意力权重。

该论文在第 2.2 节“上下文向量uw可以看作是对单词的固定查询“什么是信息词”的高级表示。词上下文向量uw是在训练过程中随机初始化和共同学习的。”

这意味着上下文向量独立于句子输入。每个句子都保持相同,并作为神经网络的参数来学习。如果是这种情况,将如何uw鉴于句子的含义如此多样化,因此可以准确地为随机句子中的单词提供注意力权重。

我不明白的工作原理uw,因为它独立于句子输入。

有人可以解释吗?

3个回答

我不能完全同意这个先前的答案

上下文向量uw不是由方程式计算的。5 和 6. 如论文所述,uw在训练过程中随机初始化和学习。相反,它是uit由方程式计算。5和6,使用(再次)随机初始化 Wwbw.

Gabrer 是对的,研究论文使用上下文向量的方式不可推广,因此存在局限性。看看 facebook ( https://arxiv.org/pdf/1705.02364.pdf ) 的类似方法。他们坚持使用不同的上下文向量来捕捉不同的主题/单词分布。因此,在某种程度上,我们没有使用单个上下文,而是多个上下文向量和模型将根据输入分配正确的上下文。

学习的是层权重。所有句子的层权重都相同。因此,使用这些硬编码的权重对每个句子进行“转换”,以给出最能代表整个句子含义的单个单词上下文。如果你这样想,那么在每个 NN 中,层权重都是硬编码的,但它们在转换不同的输入值方面做得很好

这并不意味着代表句子的输出词对于所有句子都是相同的。

第二点——这里的上下文向量与我们与注意力机制关联的上下文向量(所有状态的加权和)略有不同。语义略有不同

最后 - 是的,这种确定“上下文”的方式可能不是最佳方式。尽管如此,当论文发表时,它确实提出了一个令人耳目一新的观点。更重要的是,这篇论文本身并没有太多关注注意力——而是更多关于使用注意力对大型文档语料库进行分类