人工智能 - self-play 究竟是如何工作的，它与 MCTS 有什么关系？ - 吾爱随笔录

我正在努力使用 RL 为两人、隐藏信息、回合制棋盘游戏创建 AI。刚上完David Silver的RL课程和Denny Britz的编码练习，对MC控制、SARSA、Q-learning等比较熟悉'没有设法找到与我所拥有的游戏类型相似的任何示例，并希望获得有关如何进行的建议。

我仍然不确定自我游戏是如何运作的，以及它与 MCTS 的关系。例如，我不知道这是否涉及使用最新的代理来玩双方，或者使用代理对抗旧版本，或者同时训练多个对立的代理。有没有很好的例子（或存储库）来学习自我游戏和两人游戏的 MCTS？