为什么需要重新训练 GPT-2?

人工智能 自然语言处理
2021-10-25 11:50:35

我正在关注教程,我想知道为什么会有一个训练步骤 - 为什么有必要?我认为 GPT-2 的整个想法是您不需要在特定的文本域上对其进行训练,因为它已经在大量数据上进行了预训练。

1个回答

我是通过 Robert Miles AI 安全 Youtube 频道来了解 GPT-2 的,并打算更详细地研究它。

根据我目前的理解,GPT-2 已经过预训练以“理解”“自然”语言(对于引号中单词的任何定义)。但是,您希望它不仅能够理解一般文本,而且生成类似于某些特定“类型”的文本,例如科学文章、youtube 评论、twitter 消息,您可以命名它。

因此,使用其预先训练的理解,它分析样本文本的结构并复制该结构。
对于科学文章,这种结构可以是:

  • 抽象的
  • 研究课题的背景
  • 研究人员介绍
  • 方法/实验/发现的解释
  • 结果和解释
  • 未来研究与应用

对于 Youtube 评论,结构可能更加混乱,但可能包括对以前评论、侮辱、荒谬的酒吧级哲学、互联网俚语和笑脸的模糊提及。

TL;DR:域特定文本仅用于告诉 GPT-2 您在寻找什么。你基本上把它交给上下文来处理,而不是提示“说点聪明的”(我在聚会上最不喜欢的台词,当我被介绍为聪明时)。

PS:拿这个和一粒盐一起吃。这是 90% 来自不完整信息的猜想。