如何在强化学习中处理不断变化的动作空间

机器算法验证 强化学习
2022-04-05 15:45:20

我正在训练一个强化模型,玩一个自我学习的游戏。(第二个实例是它的对手)。代理在每个状态下都有一组可能的动作可供选择。这些动作通常保持不变。Q-Learning 试图将最佳行动映射到最高奖励。DQN 尝试估计未见状态的 Q 值。

我现在有一个例子,有时不能采取一些行动。事实上,剩余的可能动作越来越少,最终导致在游戏结束前只有一个可能的动作。我该如何处理?Do I simply give a huge negativ reward when an action is chosen which can not be taken and let it choose again? 通过这种方式,模型必须了解在某些情况下不能采取这些行动。

是否有一种不同的方法会忽略学习这一点?

1个回答

你不需要做任何特别的事情来处理这个。您唯一需要改变的是不采取任何非法行动。

典型的 Q-learning 贪心策略是π(s)=argmaxaAq^(s,a)和 epsilon-greedy 推出策略非常相似。只需更换动作空间A仅通过法律行动Alegal(s).