我最近遇到了关于 NLP 的论文。这对我来说很新,我仍然无法看到它是如何工作的。我已经使用了那里的所有资源,从原始论文到 Youtube 视频和非常著名的“Illustrated Transformer”。
假设我有一个“我是学生”的训练示例,并且我有相应的法语为“Je suis etudient”。
我想知道这 3 个单词是如何转换为 4 个单词的。什么是查询、键、值?
这是我目前对这个话题的理解。
编码器部分是:
查询:嵌入向量形式的单个词。例如“I”表示为长度为 5 的向量.
Keys:所有向量的矩阵,或者简单的单词,一个以嵌入形式包含句子中所有单词的矩阵。
值 = 键
对于解码器:
查询:向量形式的输入词(由解码器在前一次传递中给出的输出)。
键 = 值 = 编码器层的输出。
但是有 2 个不同的注意力层,其中一个根本不使用编码器的输出。那么,现在的键和值是什么?(我认为它们就像编码器,但只是生成直到通过)?
