强化学习可以用于创建模拟吗?

人工智能 强化学习
2021-10-26 11:48:08

根据定义,人工智能代理必须自己玩游戏。一个典型的领域是块世界问题。AI 确定机器人在游戏中应该执行的动作,并且确定动作顺序的可能策略是强化学习。口语化的强化学习导致了一个可以玩游戏的 AI 代理。

在实现自学习角色之前,必须首先对模拟进行编程。那是一个包含玩积木世界或任何其他游戏规则的环境。环境是 AI 角色操作的房子。Q-learning 算法可以用来构建模拟本身吗?

1个回答

Q-learning 算法可以用来构建模拟本身吗?

只有在元环境或元模拟存在的情况下,创建原始模拟的目标被编码在状态、可用动作和奖励中。

这种情况的一个特殊情况可能是模型学习规划算法,其中存在一个“真实”环境可供参考,并且代理从探索它和构建一个统计模型中受益,然后它可以使用该模型来创建结果的近似模拟一系列动作。Dyna-Q 算法是 Q-learning的简单扩展,是这种模型构建方法的一个例子。模拟是非常基础的——它只是简单地重演以前的相关经验。但是您可以将此视为代理构建模拟的示例。

让代理像研究人员一样行事并从头开始实际设计和/或编码模拟将需要不同类型的元环境。这在理论上是可能的,但可能很难以一般方式实施——即使找出奖励方案来表达这种代理的目标也可能是一个挑战。我不知道任何例子,但完全有可能有人尝试过这种元代理,因为这是一个有趣的想法。

可能最简单的例子是网格世界元环境,其中“设计者”代理可以选择迷宫中对象的布局,目的是使第二个“探索者”代理的任务更加困难。不过,设计者只能以非常抽象的方式“创建模拟”,通过设置易于管理的环境参数,而不是编写低级代码。

上述方法与让两个对立的代理玩游戏之间没有太大区别。它与国际象棋等回合制游戏的不同之处在于,每个智能体都将完成一整集,然后在两集组合结束时根据结果获得奖励。在图像生成方面与 GAN 有一些相似之处。