为什么强化学习不是 AGI 的答案?

人工智能 强化学习 哲学 敏捷 中国房间争论 人工好奇心
2021-11-09 22:26:11

我之前问过一个关于人工智能如何自由做出决定的问题?. 关于当前算法如何缺乏代理,我得到了很好的答案。

我想到的第一件事是强化学习,因为整个概念都是围绕着一个代理在环境中执行正确的动作而获得奖励。在我看来,强化学习是通向 AGI 的途径。

我也在想:如果代理是主动的而不是被动的呢?这似乎是迈向 AGI 的合乎逻辑的第一步。如果代理可以根据他们的环境找出要问的问题怎么办?例如,它体验到一个苹果从树上掉下来,然后问“是什么让苹果掉下来了?”。但这类似于我们不知道要问什么问题才能说宇宙。

2个回答

一些 AI 研究人员确实认为 RL 是通向 AGI 的途径,而你对智能体如何需要主动选择要学习的动作的直觉正是这些研究人员现在关注的领域。

该领域的大部分工作都集中在好奇心的想法上,自2014 年以来,这一想法在研究界获得了很大的关注

所以,也许 RL可以导致 AGI。我们还不确定。

然而,RL 方法并未解决许多反对 AGI 的经典论点。例如,如果像Searle一样,您认为计算机只是没有合适的硬件来进行思考,那么在该硬件上运行 RL 算法不会产生 AGI,只会产生越来越强大的窄 AI。最终 Searle 的论点涉及形而上学问题,因此尚不清楚是否存在任何论点可以说服像 Searle 这样的人相信特定的基于计算机的技术具有 AGI 能力。

还有其他论点。例如,认知主义学派认为人工智能的统计学习方法,特别是统计驱动的 RL 的黑盒方法,不太可能导致通用智能,因为它们不参与那种系统推理认知主义的支持者假设的过程对于一般智力来说是必要的。该学派的一些更极端的支持者可能会说,像STRIPS这样的逻辑规划算法它天生比任何基于深度学习的方法都更智能,因为它涉及合理的逻辑推理,而不仅仅是统计计算。特别是,只要输入正确的感知数据,STRIPS 就可以正确地泛化到任何新领域,而 RL 方法则需要学习如何在那里行动。

因此,虽然肯定有理由对 RL 作为实现 AGI 的方向持乐观态度,但它肯定还没有定论。

一篇相对较新但有趣的论文更详细地讨论了这个主题,这是David Silver、Satinder Singh、Doina Precup 和 Richard S. Sutton 撰写的Reward is enough (Artificial Intelligence, 2021)(因此是 RL 的一些教父,他们是都在 DeepMind)。

他们的奖励足够假设 (RIEH)(第 4 页)是

假设(奖励足够)。智能及其相关能力可以理解为通过代理在其环境中行动来实现奖励的最大化。

该假设与奖励假设 (RH)略有不同,后者指出所有目标都可以用奖励来表示,并且这些目标的实现可以被视为或表述为奖励的最大化,因为RIEH还指出,实现环境中的主要目标来自于奖励的最大化,因此 RIEH 是比 RH 更强的假设。

作者举了一些例子来解释 RIEH(重点是我的)。

复杂的能力可能源于复杂环境中简单奖励的最大化。例如,为了在松鼠的自然环境中最大限度地减少饥饿感,需要熟练的操作坚果的能力,这种能力源于松鼠的肌肉骨骼动力学(以及其他因素)之间的相互作用;松鼠或坚果可能依靠、连接或阻碍的物体,例如树叶、树枝或土壤;螺母尺寸和形状的变化;环境因素,如风、雨或雪;以及因衰老、疾病或受伤而发生的变化。同样,厨房机器人追求清洁要求具有感知餐具的复杂能力在包括杂波、遮挡、眩光、结壳、损坏等在内的大量状态中。

他们还试图争论为什么语言、感知器、社会智能和一般智能都可能来自单个奖励信号(例如生存)的最大化。

此外,他们还表示,与智力相关的类似复杂能力可能来自不同奖励信号的最大化,即这些能力的出现对于奖励目标的选择是稳健的。

此外,他们还谈到了先验知识和学习,但在我看来,他们应该强调/指出,例如,没有合适的传感器(感应偏差)就不会出现感知:这不是 RIEH 的限制,因为它没有说明这些能力实际上是如何产生的,或者它们产生所需的代理的性质,或者应该最大化哪个特定的奖励信号。

最后,他们还推测 RL 是主要框架,可用于查明这些猜想/推测是否正确。

他们没有进入哲学论证,例如中文房间论证或问题意识:他们解决这些问题的论证可能是,实现最终目标所需的任何能力(甚至意识,如果它是一种能力)都会出现在奖励最大化的过程。