机器算法验证 - 如何在强化学习中处理不断变化的动作空间 - 吾爱随笔录

我正在训练一个强化模型，玩一个自我学习的游戏。（第二个实例是它的对手）。代理在每个状态下都有一组可能的动作可供选择。这些动作通常保持不变。Q-Learning 试图将最佳行动映射到最高奖励。DQN 尝试估计未见状态的 Q 值。

我现在有一个例子，有时不能采取一些行动。事实上，剩余的可能动作越来越少，最终导致在游戏结束前只有一个可能的动作。我该如何处理？Do I simply give a huge negativ reward when an action is chosen which can not be taken and let it choose again? 通过这种方式，模型必须了解在某些情况下不能采取这些行动。

是否有一种不同的方法会忽略学习这一点？