人工智能 - 为什么井字游戏被认为是非确定性环境？ - 吾爱随笔录

为什么井字游戏被认为是非确定性环境？

人工智能游戏-ai 马尔可夫决策过程博弈论 pomdp 井字游戏

2021-11-12 10:52:09

我一直在阅读有关确定性和随机环境的文章，当时我想出了一篇文章，指出井字游戏是一种非确定性环境。

但这是为什么呢？

一个动作将导致一个已知的游戏状态，并且代理完全了解棋盘及其敌人过去的动作。

1个回答

当且仅当：

对手被认为是环境的一部分。当目标是解决与特定对手的比赛时，这是一种合理的方法。
对手正在使用随机策略。随机策略是包含确定性策略作为特例的概括，因此这是一个合理的默认假设。

一个动作将导致游戏的已知状态，并且代理对棋盘及其敌人过去的动作有充分的了解。

虽然这是真的，但代理观察到的下一个状态和奖励可能不是由于它所处的位置（除了它是否在该移动中获胜或平局），而是由于对手下的位置。

如果您认为对手没有固定的策略，但对到目前为止的比赛做出反应，甚至可能从过去的比赛中学习，也可以将 TIC-TAC-TOE 框架为部分观察到的 MDP (POMDP)。在这种情况下，对手的内部状态是状态的未知部分。在标准的游戏引擎和完全信息的游戏中，这是通过假设对手会做出最好的（或理性的）移动来解决的，这可以使用诸如minimax之类的搜索过程来确定。当存在不完善的信息时，例如在扑克中，允许对手的行动变得更加困难。

其它你可能感兴趣的问题

上一篇神经网络中权重初始化的目标是什么？下一篇为什么 DQN 倾向于忘记？