在强化学习中探索过“梦想”的智能体吗?

人工智能 强化学习 参考请求 基于模型的方法 想像力
2021-11-07 06:39:15

我正在阅读这篇关于“我们为什么做梦?”的文章。作者在其中讨论了梦想作为对未来威胁的预演形式,并将其呈现为一种进化优势。我的问题是这个想法是否已经在 RL 的背景下进行了探索

例如,在射击游戏中 AI 之间的竞争中,可以设计一个代理,除了它在“正常”训练中学到的行为外,它还会寻找脱离危险的时间,然后将其计算时间用于游戏产生的模拟将进一步优化其行为。由于代理仍然需要对其环境有所了解,它可以在处理环境和这种模拟之间交替。请注意,这种“游戏内”模拟相对于用于训练的“赛前”模拟具有优势;游戏中的智能体体验其他智能体的行为,这是事先无法预测的,然后在这些体验之上进行模拟,例如稍微修改它们。

对于更有经验的人来说,这个想法有意义吗?是否探索过类似的东西?

我在该领域完全没有经验,所以如果这个问题措辞不当、愚蠢或明显,我深表歉意。如果是这种情况,我将不胜感激有关如何改进它的建议。

2个回答

是的,做梦想象的概念已经在强化学习中进行了探索。

例如,看看Jessica B. Hamrick 等人的Metacontrol for Adaptive Imagination-Based Optimization (2017),这是我在 1-2 年前发表的一篇演讲/演讲的论文(虽然我不记得以及细节了)。

还有一篇关于 DeepMind 的主题Agents thatimaging and plan (2017) 的博客文章,其中讨论了另外两篇最近的论文,也提到了 Hamrick 的论文。

2018 年, Ha 和 Schmidhuber在 NIPS 上发表了另一篇相关且有趣的论文,即World Models 。

如果你在网上搜索“强化学习中的想象/梦想”,你会发现更多关于这个有趣话题的论文和文章。

基于模型的强化学习显然是正确的方法。主要是因为它允许您在内部模拟环境而无需直接交互。

所有成功的强化学习算法本质上都是基于模型的,因为没有人做过实时强化学习并取得成功。