基于 MCTS 的 AI 是否从头开始每个游戏?

人工智能 人工智能设计 蒙特卡罗树搜索
2021-10-27 18:38:09

依赖 MCTS 的 AI(如 AlphaGo)会随着游戏的进行创建决策树。他们是每场比赛都从头开始建造一棵新树,还是保留这棵树并在一场比赛中进一步发展?

除了搜索树的存储空间可能存在限制之外,我认为在保持和增长树方面没有任何明显的缺点,在我看来,这似乎是首选。每场比赛都有其他理由从头开始吗?

1个回答

你的直觉是对的。每场比赛后都会长出这棵树。

在第一次播放之前,每个决策点的值都被初始化(随机或某个常数)。然后在一次播放结束时,使用蒙特卡罗方法更新决策点的权重。这样,在下一场比赛中,更新后的权重帮助代理在下一场比赛中做出决定。

至于如何将决策点添加到树中,这取决于应用程序。对于像井字游戏这样的简单游戏,我们知道所有的决策点。对于大型游戏,有一些方法可以修剪表现不佳的分支树。