目前,在人工智能开发领域,主要关注点似乎是模式识别和机器学习。学习是关于基于反馈循环调整内部变量。
马斯洛的需求层次是亚伯拉罕马斯洛提出的心理学理论,声称必须满足个人最基本的需求,然后才能有动力实现更高层次的需求。
- 什么可能促使机器采取行动?
- 机器是否应该具有某种类似 DNA 的结构来描述其需求层次(类似于马斯洛的理论)?
- 机器的基本需求可能是什么?
目前,在人工智能开发领域,主要关注点似乎是模式识别和机器学习。学习是关于基于反馈循环调整内部变量。
马斯洛的需求层次是亚伯拉罕马斯洛提出的心理学理论,声称必须满足个人最基本的需求,然后才能有动力实现更高层次的需求。
当前实现激励的方法是某种人工奖励。例如, Deepmind 的 DQN是由游戏分数驱动的。分数越高越好。AI 学会调整其行为以获得最多的分数,从而获得最多的奖励。这称为强化学习。可以这么说,奖励会激励AI 调整其行为。
用更专业的术语来说,人工智能想要最大化效用,这取决于实现的效用函数。在 DQN 的情况下,这将最大化游戏中的分数。
人脑以类似的方式运作,虽然稍微复杂一些,而且通常不那么直接。作为人类,我们通常会尝试调整我们的行为以产生高输出的多巴胺和血清素。这类似于在强化学习期间用于控制 AI 的奖励。人脑会了解哪些动作会产生最多的这些物质,并找到最大化输出的策略。当然,这是对这个复杂过程的简化,但你明白了。
当您谈论动机时,请不要将其与意识或感受混为一谈。这些根本不是动力所必需的。如果你想讨论人工智能中的意识和感受质,那是完全不同的球赛。
孩子不是为了好奇而好奇。它在探索时得到积极的强化,因为孩子大脑的效用功能通过释放奖励性神经递质来奖励探索。所以机制是一样的。将此应用于人工智能意味着定义一个奖励新体验的效用函数。没有某种强化奖励,就没有内在动力。
这实际上是一个有趣的问题。
Jeff Hawkins 和 Sandra Blakeslee 合着的《论智力》一书中有一个关于“好奇心从何而来”的非常现实的想法。
它基于这样的陈述:
心灵创造了它自己存在的世界的模型。
它总是对所有事情做出预测(实际上 Jeff Hawkins 说这是智能的主要特征)。
当对某事的预测没有跟随世界的适当行为时,那么这件事对大脑来说会变得非常有趣(模型是错误的,应该纠正)并且需要更多的关注。
例如,当您看人的左眼时,您的大脑会预测这是一张人脸,并且右边应该有第二只眼睛。你向右看,看到一个..鼻子!多么惊喜!现在它需要你所有的注意力,并且你有动力对这种不适合你的模型的奇怪事物进行更多观察。
所以我想说,人工智能可能会根据它的模型做一些确定的事情,或者在它对世界做出的预测是真实的时候随机行事。但是一旦某个预测被打破,人工智能就会有动力对其模型进行纠错。
在一个简单的情况下,一台机器以完全随机的方式开始,只是用它的输出做它所能做的一切。虽然当它检测到某种顺序或重复模式时它没有模型或随机模型,但它会变得“感兴趣”并将其添加到模型中。一段时间后,模型变得更加复杂,可以做出更复杂的预测并检测模型中更高级别的错误。慢慢地,它会知道该怎么做才能观察到有趣的事情,而不仅仅是记住所有事情。
在强化学习课程的第一堂课中,我问了Richard Sutton 教授一个类似的问题。似乎有不同的方式来激励机器。事实上,在我看来,机器动机是一个专门的研究领域。
通常,机器受到我们所谓的目标函数或成本函数或损失函数的驱动。这些是同一概念的不同名称。有时,它们表示为
然后机器的目标是解决最小化问题,,或最大化问题,,取决于定义.
我花了一些时间在游戏的背景下思考这个问题。
奖励函数的问题在于它们通常涉及加权节点,这很有用但最终没有实质意义。
这里有两个物质上有意义的奖励:
计算资源
考虑一个游戏,其中人工智能不是为了积分,而是为了处理器时间和内存。
算法在游戏中的表现越好,它可以访问的内存和处理就越多。这有一个实际效果——自动机可用的资源越多,它的能力就越强。(即,在时间和空间方面做出决定的合理性较小。)因此,算法将有“动机”赢得这样的竞争。
活力
任何具有足够“自我意识”的自动机,这里特指它需要能量来处理的知识,都会被激励自我优化自己的代码,以消除不必要的位翻转(不必要的能量消耗)。
这样的算法也将被激励以确保其电力供应,以便它可以继续运行。