我正在为摘要任务做一些研究,发现 BERT 是从 Transformer 模型派生的。在我读过的每一篇关于 BERT 的博客中,他们都专注于解释什么是双向编码器,所以,我认为这就是 BERT 与普通 Transformer 模型不同的原因。但据我所知,Transformer 一次读取整个单词序列,因此它也被认为是双向的。有人能指出我错过了什么吗?
BERT 架构和普通 Transformer 架构有什么区别
数据挖掘
nlp
伯特
变压器
编码器
2021-10-07 02:47:08
1个回答
这个名字提供了一个线索。BERT(来自变压器的双向编码器表示):所以基本上 BERT = 变压器减去解码器
BERT 在编码器完成处理后以单词的最终表示结束。
在 Transformer 中,上面的内容用于解码器中。BERT 中没有那块架构
其它你可能感兴趣的问题