我正在训练一个 SARSA 代理来更新 Q 函数,但我对你如何处理最终状态感到困惑。在这种情况下,当游戏结束并且没有.
例如,代理根据状态执行操作,因此,代理赢了或输了,没有过渡到。
那么,考虑到状态实际上并没有改变,你如何用那个场景中的最后一个奖励来更新 Q 函数呢?那案子等于即使执行了一个动作并且代理收到了奖励(他们最终赢了或输了,所以做出非常重要的更新!)。
我是否向状态“代理获胜”和“游戏完成”添加额外的输入,这就是两者之间的区别和最后的Q更新?
为了清楚起见,这是指多代理/玩家系统。因此,代理采取的最终行动可能会产生与之相关的成本/回报,但其他代理随后采取的后续行动可能会进一步确定该代理的更大收益或损失以及它是赢还是输。因此,最终状态和选择的动作实际上可以产生不同的奖励,而无需代理采取进一步的行动。