在仅解码器或仅编码器变压器(BERT、GPT)之间做出决定

机器算法验证 神经网络 自然语言 注意力 变压器
2022-04-08 03:51:20

我刚开始学习变压器并研究了以下 3 个变体

  1. Attention的原始版本就是您所需要的(编码器和解码器)

  2. BERT(仅限编码器)

  3. GPT-2(仅限解码器)

人们通常如何决定他们的转换器模型应该只包括编码器、只包括解码器,还是同时包括编码器和解码器?

例如,如果我想训练一个变压器来读取我后院的一系列图像,然后预测一个小时内是否会下雨(2 类“下雨”或“不下雨”),如果这个变压器模型通常只有解码器?

1个回答

BERT 只需要 Transformer 的编码器部分,这是真的,但掩码的概念与 Transformer 不同。您只屏蔽一个单词(令牌)。因此,它将为您提供拼写检查文本的方法,例如通过预测该词是否比下一句中的wrd更相关。

My next <mask> will be different.

GPT-2 非常类似于仅解码器的变压器,你又是真的,但又不完全是。我认为这些是与文本相关的模型,但由于你提到了图像,我记得有人告诉我 BERT 在概念上是 VAE。

所以你可以使用类似 BERT 的模型,它们将隐藏h陈述你可以用来谈论天气。

我会使用 GPT-2 或类似模型根据一些起始像素来预测新图像。

但是,对于您需要的内容,您需要编码和解码〜转换器,因为您希望将背景编码为潜在状态,而不是将其解码为文本雨。

这样的网络存在,它们可以注释图像。但是您不需要转换器,只需简单的文本和图像 VAE 即可工作。