据我所知,蒙特卡洛树搜索 (MCTS) 算法是极小极大算法的替代方法,用于搜索节点树。它的工作原理是选择一个动作(通常是最有可能成为最佳的动作),然后在移动中执行随机播放以查看结果。这个过程在分配的时间内继续进行。
这听起来不像机器学习,而是一种遍历树的方法。但是,我听说 AlphaZero 使用 MCTS,所以我很困惑。如果 AlphaZero 使用 MCTS,那么 AlphaZero 为什么要学习?或者 AlphaZero 是否在进行任何比赛之前进行了某种机器学习,然后使用它从机器学习中获得的直觉来了解哪些动作可以花更多时间玩 MCTS?