如何设计一个能够自行发现更复杂概念的人工智能?

人工智能 人工智能设计 进化算法
2021-10-20 18:21:01

我将如何设计一个(相对)简单的人工智能,它自己发现和发明随机的更复杂的概念?

例如,假设我有一辆机器人汽车。它不知道这是一辆车。它有多个输入和输出,例如光传感器和驱动电机。如果它停留在黑暗中,它的分数会下降(坏),如果它移动到光明中,它的分数会上升(好)。它必须发现它的电机输出导致光输入发生变化(因为它离光源越来越近或越来越远),而更亮的光意味着更高的分数。

当然,设计一个专门做这件事的人工智能会更容易,但我希望它的行为发现系统更通用,如果这有意义的话。就像以后一样,它可能会找到一种与其他机器人战斗或合作来增加分数的方法(也许其他机器人在驶过它们时会破坏光源,并且可以通过驶入它们来禁用它们),但它必须在最初不知道可能存在另一个机器人的情况下发现这一点,如何识别一个,他们做什么,以及如何与一个交互。

另外,我希望它具有创造性,而不是遵循“尽一切可能提高分数”的规则。就像有一天它可能会决定与其他机器人合作是增加分数的另一种方式(它会发现爱是什么),但如果它无法做到这一点,它就会变得沮丧并停止尝试增加分数并坐在那里并死去。或者它可以发明任何其他完全随机且可能无用的行为。

如果我给它提供许多不同类型的输入和输出,它可以发现如何使用和应用到它自己不断发展的行为中,那么制作这样的东西会有多难,它基本上是从一个非常基本的系统建立起来的?

1个回答

这不是一个答案。我无法发表评论,所以这里有一些关于你的问题的评论:这是一个非常广泛的问题,被认为是构建人工智能系统的圣杯——这意味着一些科学家从远古时代就一直梦想着这一点。

你需要做一些功课;您可以提供一些解决方案,或者确定查询的多个层次,因为它们会调用 AI 研究中许多领域的概念(或通用的 AGI)。

例如,以下几层是围绕问题中的大词展开的,尽管是修辞上的——

  1. 关于进化- 什么登记为进化(只是基因突变进化,或者它是否应该涉及某种形式的自然选择或寻求增加生存机会的利基等)。软件的进化会是什么样子?是不是应该可以在进化的过程中修改自己的代码?

  2. 关于概念-什么构成概念,通过计算其相关性(相对于其他概念)从环境中识别概念,以及选择用于给定环境(自然或人工)的概念的过程。参考示例问题,道路是一个相关的概念,还是路边的树木、天空和蜜蜂为一些花授粉?什么是更基本的概念- 树木或蜜蜂,以及如何衡量它?

  3. 关于奖励——对我们人类来说,奖励是他们携带的基因机器的生存最大化(转化为繁殖成功)。我们应该提出什么样的奖励系统,机器可以使用它来增加它们在物理世界中的生存机会?将汽车沿直线行驶或从黑暗转向光明的奖励应该赋予什么价值?从黑暗走向光明不应该是更基本的行动(概念),因此比沿着直线移动获得更高的回报吗?但是,鉴于汽车已经学会了从黑暗走向光明,难道不应该降低奖励的价值,以便它可以学习其他动作/概念吗?

从这个简短的细节可以看出,层中有层。因此,现在可以正确地确定,对于这个需要作文、需要反省、需要时间、需要大量研究、需要研究的问题,没有简单的答案。然而,对于我们这个时代一些最杰出的科学家正在进行的工作,可以给出适当的指导。人们正在寻找的东西被称为通用问题求解器,例如Gödel Machine(由Jürgen Schmidhuber编写)和AIXI -基于 Solomonoff 分布 ξ 的人工智能(AI)(由Markus Hutter 编写)。

这是从AIXI 上的 Wikipedia 页面摘录的引述,它非常不言自明地说明了它如何随着时间的推移最大化奖励。

AIXI 是一个强化学习代理。它最大化从环境中获得的预期总回报。直观地说,它同时考虑了每个可计算的假设(或环境)。在每个时间步骤中,它会查看每个可能的程序,并根据下一步采取的行动评估该程序产生的奖励数量。然后,承诺的奖励会根据该程序构成真实环境的主观信念进行加权。这种信念是根据程序的长度计算得出的:较长的程序被认为不太可能,这与奥卡姆剃刀一致。然后 AIXI 在所有这些程序的加权和中选择具有最高预期总奖励的动作。

哥德尔机器走得更远——它允许代理修改自己的代码,使其能够最大化其行为的奖励——即修改自己的代码,使其能够最大化其行为的奖励——等等。这是一种递归定义,通过选择进化代理的代码/状态来模拟进化(快速进化),该代理的代码/状态收敛到优于代理当前运行的代码的代码。

这是从哥德尔机器摘要页面中引用的引文。看到Hutter也被引用了(上面发现了AIXI)。

如果给定问题的性质允许对初始策略或证明搜索器进行可证明有用的重写,我们的哥德尔机器将永远不会比其最初的问题解决策略更糟,并且有机会变得更好。哥德尔机器可以被视为一个自我参照的通用问题解决者,它可以正式地谈论自己,特别是关于它的性能。它可以通过重写其公理和效用函数或增加其硬件来“超越自身”(Hofstadter,1979),只要这被证明是有用的. 尽管它的概念很简单,哥德尔机器通过优化处理一般环境中的有限资源,以及之前的方法(Hutter,2001,2002)所掩盖的可能巨大(但持续)的减速,明确地解决了“人工智能的大问题”。理论计算机科学中广泛使用但有时具有误导性的 O() 表示法。

哥德尔机器的主要限制是它无法从无法及时证明其有用性的自我改进中获利。

阅读所述研究 的论文肯定有助于找到问题中某些层次的答案。AGI 社区也有一些与方向一致的好工作。希望这可以帮助。