AlphaGo 计算机能否使用比蒙特卡洛更好的算法?为什么 DeepMind 团队没有考虑选择另一种算法而不是花时间在他们的神经网络上?
为什么使用蒙特卡洛作为 AlphaGo 的树搜索算法?
人工智能
蒙特卡罗树搜索
阿尔法戈
蒙特卡罗方法
阿尔法零
2021-11-04 20:26:16
1个回答
介绍 AlphaGo 的论文《Mastering the game of Go with deep neural networks and tree search》推动了 MCTS 的使用
蒙特卡洛树搜索 (MCTS)使用蒙特卡洛推出来估计搜索树中每个状态的值。随着更多的模拟被执行,搜索树变得更大并且相关值变得更准确。通过选择具有更高值的子项,用于在搜索期间选择动作的策略也随着时间的推移而得到改进。渐近地,该策略收敛到最优玩法,并且评估收敛到最优值函数。当前最强大的围棋程序基于 MCTS,并通过经过训练以预测人类专家移动的策略得到增强。这些策略用于将搜索范围缩小到一系列高概率动作,并在推出期间对动作进行采样。这种做法取得了很强的业余发挥。
其它你可能感兴趣的问题