我正在阅读论文“Attention is all you need”(https://arxiv.org/pdf/1706.03762.pdf )并偶然发现了这个网站 http://jalammar.github.io/illustrated-transformer/ Transformer 的架构分解。
不幸的是,我无法找到任何解释为什么它适用于不相等的输入/输出长度(例如输入:“je suis étudiant”和预期输出:“我是学生”)。
我的主要困惑是这个。据我了解,当我们将输出从编码器传递到解码器时(比如 在这种情况下),我们通过一个多头注意力层来做到这一点,它接受 3 个输入:
- 查询(来自编码器),维度
- 尺寸的钥匙(来自编码器)
- 一个值(来自解码器),维度 , 在哪里 指(掩码)输出句子中的单词数。
鉴于 Multi-Head Attention 应该采用 3 个行数相同的矩阵(或者至少这是我从其架构中了解到的),我们如何处理输出长度变化的问题?