数据挖掘 - 在稀疏奖励环境中激发好奇心 - 吾爱随笔录

我对强化学习很陌生，但一直在探索不同类型的架构（DQN、决斗 DQN、演员评论家等）并评估它们解决某些问题的能力。我应用 RL 的问题有一个连续的观察空间（尽管维度非常低），以及一个离散的（二元）动作空间，其中代理可以“行动”或“什么都不做”。奖励机会非常稀少，大约每千个时间步随机出现一次，代理围绕机会的行动间隔对成功概率有深远的影响。每次代理“行动”时，它都会使用有限资源的一部分，这些资源根据自激霍克斯过程随机补充。放在视觉上，这就是 70ish 时间步的游戏玩法可能看起来的样子。“。” 什么都不做，“x”是射击，“O”是机会来临时。

....x......x....xx.x......O..x......x....x..xx........ ..x........x..x...

重申一下，“O”成功的概率完全取决于它周围的两个“x”的间距。

我正在努力让一个决斗 DQN 结构立即工作，但我遇到的问题是代理似乎陷入了局部最小值，他在每个时间步都开枪，并且只有在他的资源时才会放慢速度开始运行低。然而，这并不是最佳的打法，好像他要射得更远，成功的可能性实际上会增加（有一个甜蜜点）。但他似乎满足于给定 xOx 的微小成功概率，即使 x..O....x 更有可能成功。

我一直在使用稳定衰减的 epsilon 来尝试促进探索，但代理真的从不“探索”所有可能的策略（例如每 5 个时间步执行一次，每 10 个时间步执行一次，每 100 个执行一次......）。

我怀疑造成这种情况的原因之一是因为即使 epsilon 非常高，并且代理采取随机行动，平均而言，它会每 2 个时间步采取行动，所以它没有动力去查看奖励结构看起来像如果它不经常拍摄。我完全使用 RL 来解决这个问题的原因是因为我认为最佳解决方案可能非常微妙，当他的资源充足时，他以最佳成功率射击，然后当他的资源开始减少时，他的射击速度更慢，直到它们得到补充，此时他再次以最佳速率射击。

我最近看到了这篇关于好奇心驱动探索的论文，它似乎隐约适用于我遇到的问题。但在走这条复杂的路线之前，我想在这里发帖，看看我是否遗漏了任何明显的东西。以下是我为了促进更广泛的探索而尝试过的事情的清单：

每次代理射击时给予小惩罚，因为它正在使用资源
当资源耗尽以试图让他射得更慢时，惩罚会呈指数级增长。这行得通，但当他有足够的资源时，它不会激励他放慢投篮速度
每次他采取行动试图帮助他找到最佳间距时，给予与间距的“好”成比例的小奖励。这种方法是完全失败的，因为他最终在每个时间步都射击并只收集所有微小的奖励，而不是每 n 个时间步射击一次并获得大奖励。

我真的不知道还能做什么，非常感谢任何建议。