BERT 中的段嵌入和位置嵌入是什么?

人工智能 机器学习 深度学习 自然语言处理 伯特
2021-11-07 00:15:53

在此处输入图像描述

他们只在论文中提到位置嵌入是学习的,这与 ELMo 中所做的不同。

ELMo 论文 - https://arxiv.org/pdf/1802.05365.pdf

BERT 论文 - https://arxiv.org/pdf/1810.04805.pdf

2个回答

在 BERT 中,句子(对于 NLI 等需要两个句子作为输入的任务)以两种方式区分:

  • 首先,[SEP]在它们之间放置一个令牌
  • 二、学习嵌入EA连接到第一个句子的每个标记,以及另一个学习向量EB对第二个的每个令牌

也就是说,只有两种可能的“段嵌入”:EAEB.

位置嵌入是 0 到 512-1 之间每个可能位置的学习向量。Transformer 不像循环神经网络那样具有顺序性,因此需要一些关于输入顺序的信息;如果您忽略这一点,您的输出将是排列不变的。

这些嵌入只不过是令牌嵌入。

你只需随机初始化它们,然后使用梯度下降来训练它们,就像你对令牌嵌入所做的那样。