我正在尝试从Attention 中了解变压器模型,这就是您所需要的,遵循带注释的变压器。
架构如下所示:
除了右下角的输出嵌入之外,一切基本上都清楚了。在训练时,我知道可以使用实际目标作为输入 - 只需要
- 将目标向右移动一位
- 使用掩码来防止使用 - 比如说 -个单词来学习第个单词
我不清楚的是如何在推理时使用模型。在进行推理时,当然没有输出 - 那里有什么?
我正在尝试从Attention 中了解变压器模型,这就是您所需要的,遵循带注释的变压器。
架构如下所示:
除了右下角的输出嵌入之外,一切基本上都清楚了。在训练时,我知道可以使用实际目标作为输入 - 只需要
我不清楚的是如何在推理时使用模型。在进行推理时,当然没有输出 - 那里有什么?