数据挖掘 - BERT 架构和普通 Transformer 架构有什么区别 - 吾爱随笔录

BERT 架构和普通 Transformer 架构有什么区别

数据挖掘 nlp 伯特变压器编码器

2021-10-07 02:47:08

我正在为摘要任务做一些研究，发现 BERT 是从 Transformer 模型派生的。在我读过的每一篇关于 BERT 的博客中，他们都专注于解释什么是双向编码器，所以，我认为这就是 BERT 与普通 Transformer 模型不同的原因。但据我所知，Transformer 一次读取整个单词序列，因此它也被认为是双向的。有人能指出我错过了什么吗？

1个回答

这个名字提供了一个线索。BERT（来自变压器的双向编码器表示）：所以基本上 BERT = 变压器减去解码器

BERT 在编码器完成处理后以单词的最终表示结束。

在 Transformer 中，上面的内容用于解码器中。BERT 中没有那块架构

其它你可能感兴趣的问题

上一篇成本函数之间的比较以确定“最佳”模型？下一篇类别不平衡的微观平均与宏观平均