从我对该主题所做的简短研究来看,Deepmind 的 Alphazero 或 Muzero 做出决策的方式似乎是通过蒙特卡洛树搜索,其中随机模拟允许比传统的 alpha-beta 修剪更快速的计算方式. 随着模拟空间的增加,这种搜索接近经典的树搜索。
Deepmind 到底在哪里使用了神经网络?是在评价部分吗?如果是这样,他们是如何决定什么是“好”或“坏”的游戏状态?如果他们推迟了对像 Stockfish 这样的另一个国际象棋引擎的评估,我们如何看待 AlphaZero 在面对面的比赛中绝对摧毁 Stockfish?