如何使用变压器进行推理

机器算法验证 神经网络 自然语言 注意力
2022-04-04 03:42:42

我正在尝试从Attention 中了解变压器模型,这就是您所需要的,遵循带注释的变压器

架构如下所示:

变压器

除了右下角的输出嵌入之外,一切基本上都清楚了。在训练时,我知道可以使用实际目标作为输入 - 只需要

  • 将目标向右移动一位
  • 使用掩码来防止使用 - 比如说 -个单词来学习第个单词n+kn

我不清楚的是如何在推理时使用模型。在进行推理时,当然没有输出 - 那里有什么?

1个回答

这种序列生成任务的一种流行方法是束搜索它保留了迄今为止生成的许多 K 个最佳序列作为“输出”序列。

在原始论文中,不同的光束尺寸用于不同的任务。如果我们使用光束大小 K=1,它就会成为您提到的博客中的贪婪方法