稀疏代理的强化学习

数据挖掘 神经网络 强化学习
2021-10-08 06:49:02

我正在研究一个问题,其中最优策略涉及代理大部分时间“什么都不做”,而在罕见的关键时刻“做某事”。在解决此类很少采取行动的问题时,是否有任何文献或最佳实践?我尝试改变随机动作选择,以一定的概率选择不作为而不是动作,以使代理什么都不做,但这并没有真正影响学习。我认为部分问题在于代理仅在行动时才收到奖励反馈,因此这使得学习最优稀疏行动策略变得相当困难。一世' 我们试图通过权衡奖励的方式来避免奖励黑客攻击(代理频繁行动并收集许多小奖励),以使不频繁但正确定时的动作给予的奖励远远超过频繁、不正确定时的动作给予的奖励。但我不确定这是否是一个好的解决方案,甚至根本不是一个解决方案。目前使用的是决斗 DQN 网络结构,但可以尝试任何事情(策略梯度?)。任何帮助将非常感激。

1个回答

一种选择是创建一个奖励函数来激励您想要的行为:

  • 无所事事的小积极奖励。
  • 做罕见的正确行动的巨大积极奖励。
  • 当不采取行动是正确的时采取行动的负奖励。
  • 采取错误行动的负面奖励。