基础模型:它是统计和机器学习的新范式吗?

机器算法验证 机器学习 神经网络 人工智能
2022-03-25 22:25:14

最近关于所谓的基础模型( CRFM ) 的辩论带来了一个真正的问题,即我们是否可以在任何指定的域上构建非常大的模型,类似于当前的大型语言模型,并将我们的任何统计或机器学习建模工作替换为现有的基础模型练习。显然,这些模型无法解决因果关系,但这种方法将改变我们总体上实践统计和数据科学的方式。这是统计和机器学习的新范式吗?

编辑

减少社区提出的基于意见的问题。更具体地说,考虑到提出的基础模型,我们是否有类似的统计文献中的监督预训练(或广义上的迁移学习)实践,将拟合模型用作新任务的起点?

编辑 Gradient 近期发表的一篇文章Reflections on Foundation Models

今日编辑 心理学发表了一篇短文《人工智能范式转变到基础模型》

编辑 地球物理学示例,迈向地球监测的基础模型:气候变化基准提案

编辑类似的,谷歌的 PaLMOpen AI 的 DALL-E 2 的 新架构

从 deepmind编辑通才代理。类似的方法,“多领域学习”。

2个回答

披露:我还没有时间仔细阅读全文。

从摘要:

尽管基础模型即将广泛部署,但我们目前对它们的工作方式、失败时间以及由于它们的新兴特性而能够实现的功能缺乏清晰的了解。

基础模型是一个具有良好炒作潜力的术语,但实际上这些模型中没有任何“基础”。

  • 大语言模型可以进行微调,也可以用作其他模型的预训练层。并不是说它们“取代”了 NLP 中的其他模型。他们没有解决“所有”问题。
  • 它们很普遍也是不正确的。一件事是营销和试图向您出售这些模型或向您出售运行它们的昂贵基础设施的公司。另一方面,很多问题仍然存在于旧的“浅层”机器学习中,比如朴素贝叶斯、基于规则的算法等。
  • 有结果表明“好旧”模型通常优于大型“SOTA”模型,但没有人再费心对它们进行基准测试,而是我们大肆宣传。一个例子是LSTM
  • 大型“基础”模型经常惨遭失败。当被要求生成文本时,他们可以产生完全的废话(同样,不要相信精心挑选的营销材料)。最近的一个例子是由 OpenAI 生成 GitHub Copilot 的代码,它被夸大了,但最终我们了解到,在40% 的情况下它会产生错误代码
  • 最后,大型 NLP 模型主要用于英语。祝你好运,为其他语言找到同等质量的模型。

对我来说,“基础模型”的整个概念只是变相的“人工智能”概念。很多人仍然梦想构建 AGI,但没有成功,所以现在他们说“好吧,让我们让它几乎通用”。问题是我们还没有到达那里,我们甚至不知道我们是否会到达那里。同时,大多数现实生活中的问题都是用相对简单的模型来解决的,因为它们可以工作,更快,更便宜,而且通常更容易维护。

痛苦的教训 是,从长远来看,进步取决于利用越来越多的计算能力。这并不是说算法和建模进展不重要,但它们不是限制因素——神经网络自 1950 年代(或更早)以来就已经存在,只是现在增加的计算资源让我们能够利用它们完全。

缩放假设是当前模型仅被计算阻碍的提议,如果我们有更多的数量级,我们会看到建模性能的显着改进最近对越来越大的语言模型的探索和证实了这一点。

在此处输入图像描述

(图来自这里

这些最近的大规模语言模型也展示了令人印象深刻的少样本或零样本能力,这验证了扩展假设,听起来链接文章得出结论,这些“基础模型”将取代更多定制的、单独训练的模型(尽管当然,没有人争辩说大模型会取代 t 检验)。

就我个人而言,我认为有大量的证据可以证明痛苦的教训和缩放假设,而这些大型语言模型绝对令人印象深刻。我对这是否构成一个新的“范式”没有任何意见(尽管有监督的预训练的利用相对较新,但像“痛苦的教训”这样的想法已经流传了很多年),或者这些模型是否会取代所有其他人在不久的将来。