什么会激励机器?

人工智能 哲学 敏捷 奖励
2021-10-19 21:28:20

目前,在人工智能开发领域,主要关注点似乎是模式识别和机器学习。学习是关于基于反馈循环调整内部变量。

马斯洛的需求层次是亚伯拉罕马斯洛提出的心理学理论,声称必须满足个人最基本的需求,然后才能有动力实现更高层次的需求。

  • 什么可能促使机器采取行动?
  • 机器是否应该具有某种类似 DNA 的结构来描述其需求层次(类似于马斯洛的理论)?
  • 机器的基本需求可能是什么?
4个回答

当前实现激励的方法是某种人工奖励。例如, Deepmind 的 DQN是由游戏分数驱动的。分数越高越好。AI 学会调整其行为以获得最多的分数,从而获得最多的奖励。这称为强化学习可以这么说,奖励会激励AI 调整其行为。

用更专业的术语来说,人工智能想要最大化效用,这取决于实现的效用函数在 DQN 的情况下,这将最大化游戏中的分数。

人脑以类似的方式运作,虽然稍微复杂一些,而且通常不那么直接。作为人类,我们通常会尝试调整我们的行为以产生高输出的多巴胺血清素这类似于在强化学习期间用于控制 AI 的奖励。人脑会了解哪些动作会产生最多的这些物质,并找到最大化输出的策略。当然,这是对这个复杂过程的简化,但你明白了。

当您谈论动机时,请不要将其与意识感受混为一谈这些根本不是动力所必需的。如果你想讨论人工智能中的意识和感受质,那是完全不同的球赛。

孩子不是为了好奇而好奇。它在探索时得到积极的强化,因为孩子大脑的效用功能通过释放奖励性神经递质来奖励探索。所以机制是一样的。将此应用于人工智能意味着定义一个奖励新体验的效用函数。没有某种强化奖励,就没有内在动力。

这实际上是一个有趣的问题。

Jeff Hawkins 和 Sandra Blakeslee 合着的《论智力》一书中有一个关于“好奇心从何而来”的非常现实的想法。

它基于这样的陈述:

  • 心灵创造了它自己存在的世界的模型。

  • 它总是对所有事情做出预测(实际上 Jeff Hawkins 说这是智能的主要特征)。

  • 当对某事的预测没有跟随世界的适当行为时,那么这件事对大脑来说会变得非常有趣(模型是错误的,应该纠正)并且需要更多的关注。

例如,当您看人的左眼时,您的大脑会预测这是一张人脸,并且右边应该有第二只眼睛。你向右看,看到一个..鼻子!多么惊喜!现在它需要你所有的注意力,并且你有动力对这种不适合你的模型的奇怪事物进行更多观察。

所以我想说,人工智能可能会根据它的模型做一些确定的事情,或者在它对世界做出的预测是真实的时候随机行事。但是一旦某个预测被打破,人工智能就会有动力对其模型进行纠错。

在一个简单的情况下,一台机器以完全随机的方式开始,只是用它的输出做它所能做的一切。虽然当它检测到某种顺序或重复模式时它没有模型或随机模型,但它会变得“感兴趣”并将其添加到模型中。一段时间后,模型变得更加复杂,可以做出更复杂的预测并检测模型中更高级别的错误。慢慢地,它会知道该怎么做才能观察到有趣的事情,而不仅仅是记住所有事情。

在强化学习课程的第一堂课中,我问了Richard Sutton 教授一个类似的问题。似乎有不同的方式来激励机器。事实上,在我看来,机器动机是一个专门的研究领域。

通常,机器受到我们所谓的目标函数成本函数损失函数的驱动。这些是同一概念的不同名称。有时,它们表示为

L(a)

然后机器的目标是解决最小化问题,minaL(a),或最大化问题,maxaL(a),取决于定义L.

我花了一些时间在游戏的背景下思考这个问题。

奖励函数的问题在于它们通常涉及加权节点,这很有用但最终没有实质意义。

这里有两个物质上有意义的奖励:

计算资源

考虑一个游戏,其中人工智能不是为了积分,而是为了处理器时间和内存。

算法在游戏中的表现越好,它可以访问的内存和处理就越多。这有一个实际效果——自动机可用的资源越多,它的能力就越强。(即,在时间和空间方面做出决定的合理性较小。)因此,算法将有“动机”赢得这样的竞争。

活力

任何具有足够“自我意识”的自动机,这里特指它需要能量来处理的知识,都会被激励自我优化自己的代码,以消除不必要的位翻转(不必要的能量消耗)。

这样的算法也将被激励以确保其电力供应,以便它可以继续运行。