我正在阅读这篇关于“我们为什么做梦?”的文章。作者在其中讨论了梦想作为对未来威胁的预演形式,并将其呈现为一种进化优势。我的问题是这个想法是否已经在 RL 的背景下进行了探索。
例如,在射击游戏中 AI 之间的竞争中,可以设计一个代理,除了它在“正常”训练中学到的行为外,它还会寻找脱离危险的时间,然后将其计算时间用于游戏产生的模拟将进一步优化其行为。由于代理仍然需要对其环境有所了解,它可以在处理环境和这种模拟之间交替。请注意,这种“游戏内”模拟相对于用于训练的“赛前”模拟具有优势;游戏中的智能体体验其他智能体的行为,这是事先无法预测的,然后在这些体验之上进行模拟,例如稍微修改它们。
对于更有经验的人来说,这个想法有意义吗?是否探索过类似的东西?
我在该领域完全没有经验,所以如果这个问题措辞不当、愚蠢或明显,我深表歉意。如果是这种情况,我将不胜感激有关如何改进它的建议。