BERT 架构和普通 Transformer 架构有什么区别

数据挖掘 nlp 伯特 变压器 编码器
2021-10-07 02:47:08

我正在为摘要任务做一些研究,发现 BERT 是从 Transformer 模型派生的。在我读过的每一篇关于 BERT 的博客中,他们都专注于解释什么是双向编码器,所以,我认为这就是 BERT 与普通 Transformer 模型不同的原因。但据我所知,Transformer 一次读取整个单词序列,因此它也被认为是双向的。有人能指出我错过了什么吗?

1个回答

这个名字提供了一个线索。BERT(来自变压器的双向编码器表示):所以基本上 BERT = 变压器减去解码器

BERT 在编码器完成处理后以单词的最终表示结束。

在 Transformer 中,上面的内容用于解码器中。BERT 中没有那块架构