我了解Attention Is All You Need论文中使用的编码器-解码器架构的机制。我的问题是关于解码器角色的更高层次的问题。假设我们有一个句子翻译任务:Je suis ètudiant -> I am a student
编码器接收Je suis ètudiant作为输入并生成编码器输出,理想情况下应该嵌入句子的上下文/含义。
解码器接收这个编码器输出和一个输入查询(I、am、a、student)作为其输入并输出下一个词(am、a、student、EOS)。这是对每个单词逐步完成的。
现在,我是否正确理解解码器正在做两件事?
- 找出输入查询和编码器嵌入之间的关系,即查询与输入句子Je suis ètudiant的关系如何
- 通过 masked attention 机制找出当前查询与先前查询的关系。因此,当查询是student时,解码器会处理已经出现的相关单词(我是 a)。
如果这不是正确的思考方式,有人可以给出更好的解释吗?
另外,如果我有时间序列的分类或回归任务,我需要解码器吗?我认为只有编码器就足够了,因为模型的输出中没有上下文。