我正在努力使用 RL 为两人、隐藏信息、回合制棋盘游戏创建 AI。刚上完David Silver的RL课程和Denny Britz的编码练习,对MC控制、SARSA、Q-learning等比较熟悉'没有设法找到与我所拥有的游戏类型相似的任何示例,并希望获得有关如何进行的建议。
我仍然不确定自我游戏是如何运作的,以及它与 MCTS 的关系。例如,我不知道这是否涉及使用最新的代理来玩双方,或者使用代理对抗旧版本,或者同时训练多个对立的代理。有没有很好的例子(或存储库)来学习自我游戏和两人游戏的 MCTS?