变压器模型中使用的位置向量和注意力向量有什么区别?

数据挖掘 深度学习 rnn 变压器 注意机制 向量空间模型
2022-02-18 09:15:40

变压器模型中使用的位置向量和注意力向量有什么区别?,我在 youtube 上看到了一个视频,位置向量的定义为:*“基于句子中单词位置给出上下文的向量”* 注意力向量的定义为“对于永远的词,我们可以生成注意力向量捕捉句子中单词之间的上下文关系"

根据距离(位置向量)和注意力(注意力向量)捕获上下文信息听起来一样对吗?还是不同?

1个回答

所以问题是关注向量和位置向量之间的区别。

为了回答这个问题,我们将提供一些上下文来了解转换器与顺序模型(例如 RNN 和 LSTM)的不同之处。在 RNN 和 LSTM 的情况下,数据按顺序“一个接一个”地输入模型以预测输出(无论是在每个时间步还是在观察整个序列之后。尽管在问题。)

在 Transformer 模型中,整个序列被输入到模型中,就像使用传统的神经网络一样。然而,问题在于,与 RNN/LSTM 不同,Transformer 模型无法理解序列中实例的顺序,因为整个序列都被输入到模型中。因此,我们需要位置嵌入(用您的术语来说是位置向量)来向各个实例添加信息,从而告诉模型实例在序列中的顺序。

在变换器的上下文中,注意力的工作基础是它为序列中的实例分配更高的系数,这些实例与解码来自编码器的隐藏表示最相关。与基本的编码器-解码器模型不同,通过注意力,我们能够灵活地分配序列中的哪些输入实例在预测输出序列中的下一个输出实例时最有“发言权”。

我希望这能澄清一些理解。如果没有,这里有一篇关于变压器的好文章:http ://www.peterbloem.nl/blog/transformers