机器算法验证 - 为什么 BERT 使用学习到的位置嵌入？ - 吾爱随笔录

机器算法验证神经网络自然语言嵌入

2022-03-30 04:11:36

与 Transformer 中使用的正弦位置编码相比，BERT 的学习查找表解决方案在我看来有两个缺点：

谁能告诉我这种设计背后的考虑因素？

2个回答

这是我目前对自己问题的理解。

这可能与 BERT 的迁移学习背景有关。学习查找表确实增加了预训练阶段的学习工作量，但与变压器编码器中可训练参数的数量相比，额外的工作量几乎可以忽略不计，考虑到预训练阶段的一次性工作量，它也应该被接受，并且意味着时间消耗。

在微调和预测阶段，它要快得多，因为需要在每个位置计算正弦位置编码。

固定长度

BERT 和 Transformer 一样，将注意力作为一个关键特性。这些模型中使用的注意力也有固定的跨度。

不能反映相对距离

我们假设神经网络是通用函数逼近器。如果是这样，为什么它不能自己学习构建傅里叶项？

他们为什么使用它？因为它比 Transformer 中使用的方法更灵活。它是经过学习的，所以它可能可以自己找出更好的东西——这是整个深度学习背后的一般假设。它也被证明工作得更好。

其它你可能感兴趣的问题