我对强化学习很陌生,但一直在探索不同类型的架构(DQN、决斗 DQN、演员评论家等)并评估它们解决某些问题的能力。我应用 RL 的问题有一个连续的观察空间(尽管维度非常低),以及一个离散的(二元)动作空间,其中代理可以“行动”或“什么都不做”。奖励机会非常稀少,大约每千个时间步随机出现一次,代理围绕机会的行动间隔对成功概率有深远的影响。每次代理“行动”时,它都会使用有限资源的一部分,这些资源根据自激霍克斯过程随机补充。放在视觉上,这就是 70ish 时间步的游戏玩法可能看起来的样子。“。” 什么都不做,“x”是射击,“O”是机会来临时。
....x......x....xx.x......O..x......x....x..xx........ ..x........x..x...
重申一下,“O”成功的概率完全取决于它周围的两个“x”的间距。
我正在努力让一个决斗 DQN 结构立即工作,但我遇到的问题是代理似乎陷入了局部最小值,他在每个时间步都开枪,并且只有在他的资源时才会放慢速度开始运行低。然而,这并不是最佳的打法,好像他要射得更远,成功的可能性实际上会增加(有一个甜蜜点)。但他似乎满足于给定 xOx 的微小成功概率,即使 x..O....x 更有可能成功。
我一直在使用稳定衰减的 epsilon 来尝试促进探索,但代理真的从不“探索”所有可能的策略(例如每 5 个时间步执行一次,每 10 个时间步执行一次,每 100 个执行一次......)。
我怀疑造成这种情况的原因之一是因为即使 epsilon 非常高,并且代理采取随机行动,平均而言,它会每 2 个时间步采取行动,所以它没有动力去查看奖励结构看起来像如果它不经常拍摄。我完全使用 RL 来解决这个问题的原因是因为我认为最佳解决方案可能非常微妙,当他的资源充足时,他以最佳成功率射击,然后当他的资源开始减少时,他的射击速度更慢,直到它们得到补充,此时他再次以最佳速率射击。
我最近看到了这篇关于好奇心驱动探索的论文,它似乎隐约适用于我遇到的问题。但在走这条复杂的路线之前,我想在这里发帖,看看我是否遗漏了任何明显的东西。以下是我为了促进更广泛的探索而尝试过的事情的清单:
- 每次代理射击时给予小惩罚,因为它正在使用资源
- 当资源耗尽以试图让他射得更慢时,惩罚会呈指数级增长。这行得通,但当他有足够的资源时,它不会激励他放慢投篮速度
- 每次他采取行动试图帮助他找到最佳间距时,给予与间距的“好”成比例的小奖励。这种方法是完全失败的,因为他最终在每个时间步都射击并只收集所有微小的奖励,而不是每 n 个时间步射击一次并获得大奖励。
我真的不知道还能做什么,非常感谢任何建议。