GPT-3 的 1750 亿个参数中的“参数”究竟是什么,它们是如何选择/生成的?

人工智能 循环神经网络 开放式 变压器 注意力 gpt
2021-11-04 05:31:33

当我研究神经网络时,参数是学习率、批量大小等。但即使是 GPT3 的 ArXiv 论文也没有提及参数究竟是什么,而是暗示它们可能只是句子。

在此处输入图像描述

甚至像这样的教程网站也开始谈论通常的参数,但也说"model_name: This indicates which model we are using. In our case, we are using the GPT-2 model with 345 million parameters or weights". 那么这 1750 亿个“参数”仅仅是神经权重吗?那么为什么它们被称为参数呢?GPT3 的论文显示只有 96 层,所以我假设它不是一个非常深的网络,而是非常胖。或者这是否意味着每个“参数”只是编码器或解码器的表示?

在此处输入图像描述

该网站的摘录显示了令牌:

在这种情况下,有两个额外的参数可以传递给 gpt2.generate():truncate 和 include_prefix。例如,如果每个短文本以 <|startoftext|> 标记开头并以 <|endoftext|> 结尾,则设置 prefix='<|startoftext|>'、truncate=<|endoftext|>' 和 include_prefix= False,并且长度足够,那么 gpt-2-simple 将自动提取短格式文本,即使是批量生成也是如此。

那么参数是由试图微调模型的人类手动创建的各种令牌吗?尽管如此,1750 亿个这样的微调参数对于人类来说太高了,所以我假设“参数”是自动生成的。

基于注意力的论文将查询键值权重矩阵称为“参数”。就算是这些权重,我也想知道这些参数是通过什么样的过程产生的,谁来选择参数并指定词的相关性?如果它是自动创建的,它是如何完成的?

1个回答

参数是权重的同义词,这是大多数人用于神经网络参数的术语(实际上,根据我的经验,这是机器学习者通常会使用的术语,而参数在统计学文献中更常见)。批量大小、学习率等是超参数,这基本上意味着它们是用户指定的,而权重是学习算法将通过训练学习的内容。