与 Transformer 中使用的正弦位置编码相比,BERT 的学习查找表解决方案在我看来有两个缺点:
- 固定长度
- 不能反映相对距离
谁能告诉我这种设计背后的考虑因素?
与 Transformer 中使用的正弦位置编码相比,BERT 的学习查找表解决方案在我看来有两个缺点:
谁能告诉我这种设计背后的考虑因素?
这是我目前对自己问题的理解。
这可能与 BERT 的迁移学习背景有关。学习查找表确实增加了预训练阶段的学习工作量,但与变压器编码器中可训练参数的数量相比,额外的工作量几乎可以忽略不计,考虑到预训练阶段的一次性工作量,它也应该被接受,并且意味着时间消耗。
在微调和预测阶段,它要快得多,因为需要在每个位置计算正弦位置编码。