他们只在论文中提到位置嵌入是学习的,这与 ELMo 中所做的不同。
ELMo 论文 - https://arxiv.org/pdf/1802.05365.pdf
BERT 论文 - https://arxiv.org/pdf/1810.04805.pdf
他们只在论文中提到位置嵌入是学习的,这与 ELMo 中所做的不同。
ELMo 论文 - https://arxiv.org/pdf/1802.05365.pdf
BERT 论文 - https://arxiv.org/pdf/1810.04805.pdf
在 BERT 中,句子(对于 NLI 等需要两个句子作为输入的任务)以两种方式区分:
[SEP]
在它们之间放置一个令牌也就是说,只有两种可能的“段嵌入”:和.
位置嵌入是 0 到 512-1 之间每个可能位置的学习向量。Transformer 不像循环神经网络那样具有顺序性,因此需要一些关于输入顺序的信息;如果您忽略这一点,您的输出将是排列不变的。
这些嵌入只不过是令牌嵌入。
你只需随机初始化它们,然后使用梯度下降来训练它们,就像你对令牌嵌入所做的那样。