人工智能 - 在强化学习中探索过“梦想”的智能体吗？ - 吾爱随笔录

我正在阅读这篇关于“我们为什么做梦？”的文章。作者在其中讨论了梦想作为对未来威胁的预演形式，并将其呈现为一种进化优势。我的问题是这个想法是否已经在 RL 的背景下进行了探索。

例如，在射击游戏中 AI 之间的竞争中，可以设计一个代理，除了它在“正常”训练中学到的行为外，它还会寻找脱离危险的时间，然后将其计算时间用于游戏产生的模拟将进一步优化其行为。由于代理仍然需要对其环境有所了解，它可以在处理环境和这种模拟之间交替。请注意，这种“游戏内”模拟相对于用于训练的“赛前”模拟具有优势；游戏中的智能体体验其他智能体的行为，这是事先无法预测的，然后在这些体验之上进行模拟，例如稍微修改它们。

对于更有经验的人来说，这个想法有意义吗？是否探索过类似的东西？

我在该领域完全没有经验，所以如果这个问题措辞不当、愚蠢或明显，我深表歉意。如果是这种情况，我将不胜感激有关如何改进它的建议。