两人棋盘游戏的下一个状态是什么?

人工智能 强化学习 q学习
2021-11-08 08:11:28

我正在使用 Q-learning 来训练代理玩棋盘游戏(例如国际象棋、选秀或围棋)。

代理在状态下采取行动S,但接下来的状态是什么(即, S)? S现在由于采取行动而移动棋子的棋盘,或者是S在其他玩家执行他的动作后代理遇到的状态(即再次轮到这个代理)?

1个回答

如果你的对手有固定的知识(它不会学习),那么你的代理做了一个动作之后的下一个状态就是你轮到你时的状态。所以其他玩家的行为被认为是对你行为的环境反应。

但是如果你的对手可以学习,你可以创建一个多智能体强化学习