BERT - 对令牌嵌入、位置嵌入和段嵌入求和的目的

数据挖掘 nlp 伯特
2022-03-10 11:16:33

我阅读了 BERT 输入处理的实现(下图)。我的问题是为什么作者选择总结三种嵌入(token embedding、positional embedding和segment embedding)? 在此处输入图像描述

1个回答

因为这些是完成损失任务所需的信息,即掩码语言建模(即预测掩码标记)和下一句预测(即预测第二段是否跟随原文中的第一段)。这些是具体原因:

  • 需要令牌嵌入来识别作为输入处理的词/子词,以及被屏蔽的令牌。
  • 需要位置嵌入,因为没有它们,Transformer 无法区分不同位置的相同标记(与 LSTM 等循环网络不同)。更多详情,可以参考这个答案
  • 损失的次要任务需要句子嵌入:下一句预测。需要它们轻松区分输入的不同部分。更多详情,可以参考这个答案

另外,请注意,普通的 Transformer 架构已经添加了令牌嵌入和位置嵌入。

可以在此答案中找到将这些嵌入相加而不是串联的原因。把它们加起来你基本上是在学习组合它们的最佳方式,而不是先验地修复它。