为什么井字游戏被认为是非确定性环境?

人工智能 游戏-ai 马尔可夫决策过程 博弈论 pomdp 井字游戏
2021-11-12 10:52:09

我一直在阅读有关确定性和随机环境的文章,当时我想出了一篇文章,指出井字游戏是一种非确定性环境。

但这是为什么呢?

一个动作将导致一个已知的游戏状态,并且代理完全了解棋盘及其敌人过去的动作。

1个回答

当且仅当:

  • 对手被认为是环境的一部分。当目标是解决与特定对手的比赛时,这是一种合理的方法。

  • 对手正在使用随机策略。随机策略是包含确定性策略作为特例的概括,因此这是一个合理的默认假设。

一个动作将导致游戏的已知状态,并且代理对棋盘及其敌人过去的动作有充分的了解。

虽然这是真的,但代理观察到的下一个状态和奖励可能不是由于它所处的位置(除了它是否在该移动中获胜或平局),而是由于对手下的位置。

如果您认为对手没有固定的策略,但对到目前为止的比赛做出反应,甚至可能从过去的比赛中学习,也可以将 TIC-TAC-TOE 框架为部分观察到的 MDP (POMDP)。在这种情况下,对手的内部状态是状态的未知部分。在标准的游戏引擎和完全信息的游戏中,这是通过假设对手会做出最好的(或理性的)移动来解决的,这可以使用诸如minimax之类的搜索过程来确定。当存在不完善的信息时,例如在扑克中,允许对手的行动变得更加困难。