人工智能 - 为什么 BERT 编码器在注意力和神经网络层之间有一个中间层，输出更大？ - 吾爱随笔录

人工智能深度学习自然语言处理文件注意力伯特

2021-11-07 13:38:24

当我查看注意力机制时，我不明白为什么在 BERT 编码器中，我们在注意力和神经网络层之间有一个中间层，输出更大（ $4*H$ ，在哪里 $H$ 是隐藏大小）。也许是层规范化，但是，通过查看代码，我不确定。

1个回答

在摘要中，他们写道

所有基于 BERT 的架构都有一个自注意力块，然后是一个中间层块作为基本构建组件。然而，文献中仍然缺少包含这些中间层的有力理由。

在结论中，他们写道

在这项工作中，我们提出了对 BERT 架构的修改，重点是减少网络中的中间层数量。使用修改后的 BERTBASE 网络，我们表明可以显着降低网络复杂性，同时保持微调任务的准确性。

其它你可能感兴趣的问题