数据挖掘 - BERT 输出中的“隐藏状态”是什么？ - 吾爱随笔录

数据挖掘 nlp rnn 伯特

2022-03-01 05:21:45

我试图了解 BERT 的工作原理和输出，我想知道 BERT 的每一层如何/为什么都有一个“隐藏状态”。

我了解 RNN 具有传递给每个时间步的“隐藏状态”，这是先前输入的表示。但我读到 BERT 不是 RNN——它是一个有注意力的 CNN。

但是您可以为 BERT 模型的每一层输出隐藏状态。如果不是 RNN，BERT 怎么会有隐藏状态？

1个回答

BERT 是一个变压器。

变压器由几个相似的层组成，相互堆叠。
每一层都有一个输入和一个输出。所以层的输出就是层n-1的输入n。

你提到的隐藏状态只是每一层的输出。

您可能想快速查看 Transformer 架构的解释： https ://jalammar.github.io/illustrated-transformer/

请注意，BERT 仅使用编码器，不使用解码器。

其它你可能感兴趣的问题