我正在训练一个强化模型,玩一个自我学习的游戏。(第二个实例是它的对手)。代理在每个状态下都有一组可能的动作可供选择。这些动作通常保持不变。Q-Learning 试图将最佳行动映射到最高奖励。DQN 尝试估计未见状态的 Q 值。
我现在有一个例子,有时不能采取一些行动。事实上,剩余的可能动作越来越少,最终导致在游戏结束前只有一个可能的动作。我该如何处理?Do I simply give a huge negativ reward when an action is chosen which can not be taken and let it choose again? 通过这种方式,模型必须了解在某些情况下不能采取这些行动。
是否有一种不同的方法会忽略学习这一点?