为什么 BERT 编码器在注意力和神经网络层之间有一个中间层,输出更大?

人工智能 深度学习 自然语言处理 文件 注意力 伯特
2021-11-07 13:38:24

我正在阅读 BERT 论文BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding

当我查看注意力机制时,我不明白为什么在 BERT 编码器中,我们在注意力和神经网络层之间有一个中间层,输出更大(4H, 在哪里H是隐藏大小)。也许是层规范化,但是,通过查看代码,我不确定。

1个回答

论文Undivided Attention: Are Intermediate Layers Necessary for BERT? 应该回答它。

在摘要中,他们写道

所有基于 BERT 的架构都有一个自注意力块,然后是一个中间层块作为基本构建组件。然而,文献中仍然缺少包含这些中间层的有力理由。

在结论中,他们写道

在这项工作中,我们提出了对 BERT 架构的修改,重点是减少网络中的中间层数量。使用修改后的 BERTBASE 网络,我们表明可以显着降低网络复杂性,同时保持微调任务的准确性。