我听说过很多关于OpenAI 的 GPT-3 的消息,它是一个简单易用的 API,文本输入输出,并且有一个 175B 参数的大型神经网络。
但是他们是如何实现这么多参数的,为什么它被预测为最伟大的创新之一呢?
我听说过很多关于OpenAI 的 GPT-3 的消息,它是一个简单易用的 API,文本输入输出,并且有一个 175B 参数的大型神经网络。
但是他们是如何实现这么多参数的,为什么它被预测为最伟大的创新之一呢?
GPT-3 和 2 中的要点是观察到性能随着模型大小的增加而稳步提高(如链接论文中的图 1.2 所示)。所以看起来,虽然 NLP 取得的所有进展肯定是有用的,但扩大模型大小也很重要。
这似乎并不令人惊讶,但实际上确实如此。通常,性能会饱和,或者至少增益会下降,但事实并非如此!所以主要的创新可能不是那么大,而且有点靠蛮力,但重点仍然存在:更大的模型更好。
另一点要提到的是他们进行培训的方式。这么大的模型需要一些技巧来实际训练(而且速度很快)。您还想利用多个 GPU 进行并行训练。这意味着他们还必须开发新的培训结构。
为什么它被预测为一项巨大的创新可能只包含在一些推特演示中,据我所知,没有真正的消息来源。特别是因为该模型不是公开可用的。