你的问题是正确的,在 RL 术语中,国际象棋是一个代理是一个玩家,而另一个玩家具有未知状态的国际象棋游戏是一个部分可观察的环境。像这样下棋并不是一个完全可观察的环境。
我没有在上面使用术语“完全可观察的游戏”或“完全可观察的系统”,因为那不是强化学习术语。您也可以阅读类似的“完美信息游戏” - 这意味着游戏状态中没有可能影响最佳游戏的重要隐藏值。这与了解对手的状态不同。
下面是一个反例,表明当你的对手的策略未知时,完美信息博弈不是完全可观察的系统:
井字游戏的最佳游戏会导致强制平局。
让我们从代理的角度定义一个奖励信号,+1 表示胜利,0 表示平局,-1 表示失败。
如果智能体的对手总是以最佳方式发挥,那么 RL 智能体将学会对抗这种最佳方式并以最佳方式发挥。所有的行动选择都会有一个0或-1的预期回报,并且代理在贪婪行动时会选择0个选项。
如果智能体的对手犯了一个让智能体获胜的错误,那么在游戏中会有一个返回 1 的轨迹,或者在错误只是根据随机机会犯的情况下可能是其他一些正值。
因此,博弈中状态的价值取决于对手的策略。
然而,对手的策略是不可观察的——它是未知的,也没有编码到棋盘状态中。
这应该符合您提出问题时的直觉。
那么,为什么在不使用 POMDP 的情况下,许多用于国际象棋等游戏的二人游戏强化代理表现良好?
这是因为在这些环境中的博弈论支持“完美游戏”的概念,并且假设他们的对手也会尝试以最佳方式进行游戏——没有错误——通常会做得很好。博弈论分析导致极小极大理论形式的选择——做出你的对手最不可能利用的选择。
这确实意味着这样的代理人实际上可能在对抗任何给定的对手时表现不佳。例如,他们有可能将一些输球或平局的情况转化为一场胜利,但除非针对这种对手进行训练,否则他们几乎没有能力这样做。此外,这样的打法可能会对其他对手造成很大的风险,它可能涉及在早期的某个阶段打得不够理想。
我在Kaggle 的 Connect X 比赛中观察到了一个相关问题。Connect 4 是一款已解决的游戏,玩家可以强制获胜,而最好的代理人都是完美的玩家。然而,它们并不都是平等的。表现最好的人会调整他们的代理人对玩家二的选择,以迫使其他没有编写完美玩家一的代理人赢得最多的胜利。不同类型的学习策略会导致不同的缺陷,排行榜的顶部被当前最佳完美智能体占据,该智能体还设法利用排名低于其的接近完美智能体的数量。由于 Connect 4 游戏与策略未知的代理对战的部分可观察性,顶级代理之间的这种差异是可能的。
究竟什么是部分可观察环境?
它们是至少在某些状态下,代理无法访问影响下一个状态或奖励分布的信息的环境。
国际象棋与对手对战,你有他们的行为模型 - 即他们的政策 - 对代理来说是完全可观察的。这是自我游戏代理和系统隐含的假设,并且在实践中可以很好地工作。
在没有行为模型的情况下与对手下棋是部分可观察的。理论上,您可以尝试使用部分可观察的 MDP 模型 (POMDP) 来构建一个系统来解释这一点,以尝试迫使对手进入他们更有可能做出对代理有利的决定的状态. 然而,简单地尽可能以最优方式应对对手的所有策略——即假设他们的策略与你的策略接近最优策略相同,即使在观察到他们的错误之后——在 RL 中更为常见。
最初的 Alpha Go 实际上有一个单独的策略网络,用于自己的选择和对人类的建模。这是通过实验选择的,因为它比假设人类对手使用与自我游戏代理相同的策略略好一些。