在自我对战 RL 与“正常”RL 中,最终奖励的接收/处理方式似乎存在重大差异,这让我感到困惑。
我以正常方式实现井字游戏,其中单个代理与管理状态的环境对战,并以新动作进行回复。在这种情况下,代理收到的最终奖励为,和分别为胜、平、负。
接下来,我以自我对弈模式实现井字游戏,两个智能体一个接一个地移动,环境只管理状态并返回奖励。在这种情况下,代理只能获得最终奖励或者,因为在他自己移动之后,他永远不会处于他输掉的最终状态(只有代理 2 可以以这种方式终止游戏)。这意味着:
在自我游戏中,剧集以这样一种方式结束,即只有一名玩家可以看到最终状态和最终奖励。
由于第一点,代理无法知道他是否做出了让对手赢得这一集的坏举动。仅仅因为他没有得到负回报。
这对我来说似乎很奇怪。我究竟做错了什么?或者如果我没有错,我该如何处理这个问题?