数据挖掘 - 稀疏代理的强化学习 - 吾爱随笔录

我正在研究一个问题，其中最优策略涉及代理大部分时间“什么都不做”，而在罕见的关键时刻“做某事”。在解决此类很少采取行动的问题时，是否有任何文献或最佳实践？我尝试改变随机动作选择，以一定的概率选择不作为而不是动作，以使代理什么都不做，但这并没有真正影响学习。我认为部分问题在于代理仅在行动时才收到奖励反馈，因此这使得学习最优稀疏行动策略变得相当困难。一世' 我们试图通过权衡奖励的方式来避免奖励黑客攻击（代理频繁行动并收集许多小奖励），以使不频繁但正确定时的动作给予的奖励远远超过频繁、不正确定时的动作给予的奖励。但我不确定这是否是一个好的解决方案，甚至根本不是一个解决方案。目前使用的是决斗 DQN 网络结构，但可以尝试任何事情（策略梯度？）。任何帮助将非常感激。