BERT 输出中的“隐藏状态”是什么?

数据挖掘 nlp rnn 伯特
2022-03-01 05:21:45

我试图了解 BERT 的工作原理和输出,我想知道 BERT 的每一层如何/为什么都有一个“隐藏状态”。

我了解 RNN 具有传递给每个时间步的“隐藏状态”,这是先前输入的表示。但我读到 BERT 不是 RNN——它是一个有注意力的 CNN。

但是您可以为 BERT 模型的每一层输出隐藏状态。如果不是 RNN,BERT 怎么会有隐藏状态?

1个回答

BERT 是一个变压器。

变压器由几个相似的层组成,相互堆叠。
每一层都有一个输入和一个输出。所以层的输出就是层n-1的输入n

你提到的隐藏状态只是每一层的输出。


您可能想快速查看 Transformer 架构的解释: https ://jalammar.github.io/illustrated-transformer/

请注意,BERT 仅使用编码器,不使用解码器。