为什么 BERT 使用学习到的位置嵌入?

机器算法验证 神经网络 自然语言 嵌入
2022-03-30 04:11:36

与 Transformer 中使用的正弦位置编码相比,BERT 的学习查找表解决方案在我看来有两个缺点:

  1. 固定长度
  2. 不能反映相对距离

谁能告诉我这种设计背后的考虑因素?

2个回答

这是我目前对自己问题的理解。

这可能与 BERT 的迁移学习背景有关。学习查找表确实增加了预训练阶段的学习工作量,但与变压器编码器中可训练参数的数量相比,额外的工作量几乎可以忽略不计,考虑到预训练阶段的一次性工作量,它也应该被接受,并且意味着时间消耗。

在微调和预测阶段,它要快得多,因为需要在每个位置计算正弦位置编码。

  1. 固定长度

BERT 和 Transformer 一样,将注意力作为一个关键特性。这些模型中使用的注意力也有固定的跨度。

  1. 不能反映相对距离

我们假设神经网络是通用函数逼近器如果是这样,为什么它不能自己学习构建傅里叶项?

他们为什么使用它?因为它比 Transformer 中使用的方法更灵活。它是经过学习的,所以它可能可以自己找出更好的东西——这是整个深度学习背后的一般假设。它也被证明工作得更好。