我试图了解 BERT 的工作原理和输出,我想知道 BERT 的每一层如何/为什么都有一个“隐藏状态”。
我了解 RNN 具有传递给每个时间步的“隐藏状态”,这是先前输入的表示。但我读到 BERT 不是 RNN——它是一个有注意力的 CNN。
但是您可以为 BERT 模型的每一层输出隐藏状态。如果不是 RNN,BERT 怎么会有隐藏状态?
我试图了解 BERT 的工作原理和输出,我想知道 BERT 的每一层如何/为什么都有一个“隐藏状态”。
我了解 RNN 具有传递给每个时间步的“隐藏状态”,这是先前输入的表示。但我读到 BERT 不是 RNN——它是一个有注意力的 CNN。
但是您可以为 BERT 模型的每一层输出隐藏状态。如果不是 RNN,BERT 怎么会有隐藏状态?
BERT 是一个变压器。
变压器由几个相似的层组成,相互堆叠。
每一层都有一个输入和一个输出。所以层的输出就是层n-1的输入n。
你提到的隐藏状态只是每一层的输出。
您可能想快速查看 Transformer 架构的解释: https ://jalammar.github.io/illustrated-transformer/
请注意,BERT 仅使用编码器,不使用解码器。