为什么使用蒙特卡洛作为 AlphaGo 的树搜索算法?

人工智能 蒙特卡罗树搜索 阿尔法戈 蒙特卡罗方法 阿尔法零
2021-11-04 20:26:16

AlphaGo 计算机能否使用比蒙特卡洛更好的算法?为什么 DeepMind 团队没有考虑选择另一种算法而不是花时间在他们的神经网络上?

1个回答

介绍 AlphaGo 的论文《Mastering the game of Go with deep neural networks and tree search》推动了 MCTS 的使用

蒙特卡洛树搜索 (MCTS)使用蒙特卡洛推出来估计搜索树中每个状态的值。随着更多的模拟被执行,搜索树变得更大并且相关值变得更准确。通过选择具有更高值的子项,用于在搜索期间选择动作的策略也随着时间的推移而得到改进。渐近地,该策略收敛到最优玩法,并且评估收敛到最优值函数当前最强大的围棋程序基于 MCTS,并通过经过训练以预测人类专家移动的策略得到增强这些策略用于将搜索范围缩小到一系列高概率动作,并在推出期间对动作进行采样。这种做法取得了很强的业余发挥。