在BERT 论文中,我了解到 BERT 是仅编码器模型,即它仅涉及转换器编码器块。
在GPT 论文中,我了解到 GPT 是仅解码器模型,即它仅涉及转换器解码器块。
我猜有什么区别。我知道编码器和解码器块之间的以下区别: GPT 解码器仅查看先前生成的令牌并从中学习,而不是右侧令牌。BERT 编码器关注两边的令牌。
但我有以下疑问:
Q1。GPT2,3 侧重于新/一/零短期学习。我们不能用像 BERT 这样的纯编码器架构来构建新的/一/零短学习模型吗?
Q2。HuggingfaceGpt2Model
包含forward()
方法。我想,将单个数据实例提供给这种方法就像是一次性学习?
Q3。我已经实现了神经网络模型,它利用BertModel
来自拥抱脸的输出。我可以简单地将BertModel
课程GPT2Model
与某个课程交换吗?的返回值Gpt2Model.forward
确实包含last_hidden_state
类似于BertModel.forward
。BertModel
所以,我想换掉Gpt2Model
确实可行,对吧?
Q4。除了仅解码器和仅编码器、自回归与非自回归以及是否接受迄今为止生成的令牌作为输入之外,GPT 和 BERT 有哪些高级架构/概念差异?