我正在关注本教程,我想知道为什么会有一个训练步骤 - 为什么有必要?我认为 GPT-2 的整个想法是您不需要在特定的文本域上对其进行训练,因为它已经在大量数据上进行了预训练。
为什么需要重新训练 GPT-2?
人工智能
自然语言处理
2021-10-25 11:50:35
1个回答
我是通过 Robert Miles AI 安全 Youtube 频道来了解 GPT-2 的,并打算更详细地研究它。
根据我目前的理解,GPT-2 已经过预训练以“理解”“自然”语言(对于引号中单词的任何定义)。但是,您希望它不仅能够理解一般文本,而且生成类似于某些特定“类型”的文本,例如科学文章、youtube 评论、twitter 消息,您可以命名它。
因此,使用其预先训练的理解,它分析样本文本的结构并复制该结构。
对于科学文章,这种结构可以是:
- 抽象的
- 研究课题的背景
- 研究人员介绍
- 方法/实验/发现的解释
- 结果和解释
- 未来研究与应用
对于 Youtube 评论,结构可能更加混乱,但可能包括对以前评论、侮辱、荒谬的酒吧级哲学、互联网俚语和笑脸的模糊提及。
TL;DR:域特定文本仅用于告诉 GPT-2 您在寻找什么。你基本上把它交给上下文来处理,而不是提示“说点聪明的”(我在聚会上最不喜欢的台词,当我被介绍为聪明时)。
PS:拿这个和一粒盐一起吃。这是 90% 来自不完整信息的猜想。