您可能听说过 GPT2,一种新的语言模型。它最近引起了公众的关注,因为发表论文OpenAI的基金会讽刺地拒绝分享整个模型,因为担心会产生危险的影响。在这篇论文中,他们还发表了一份宣言来证明他们的选择是正确的:“更好的语言模型及其含义”。很快,许多媒体都发表了文章,讨论选择及其实际上防止不良影响的有效性。我不是在这里讨论这个选择的道德成分,而是模型的实际表现。
这个模型也引起了我的注意,我下载了这个小模型来玩。老实说,我对结果印象深刻。有时,生成的文本的第一段似乎是有道理的,但十有八九是第一句或第二句的胡言乱语。论文中给出的例子似乎是“幸运”输出,人手采摘的樱桃。总体而言,该论文可能会受到非常严重的发表偏倚的影响。
然而,我们可以在互联网上阅读的大多数文章似乎都认为它的强大是理所当然的。麻省理工科技评论写道:
语言模型可以像人类一样写作
卫报写道
当用于简单地生成新文本时,GPT2 能够编写与所给出的风格和主题相匹配的合理段落。它很少显示任何标记以前 AI 系统的怪癖,例如在段落中途忘记它在写什么,或者破坏长句子的语法。
该模型通常被认为是“突破”。这些作品与我的个人实验不符,因为生成的文本很少一致/语法正确。
我的问题是:如果不出于道德原因发布整个模型,我们怎么知道该模型是否真的那么强大?