强化学习实际上出现在 Deepmind 的游戏引擎中的什么地方?

人工智能 深度学习 蒙特卡罗树搜索 零字母 深思熟虑
2021-11-18 00:25:39

从我对该主题所做的简短研究来看,Deepmind 的 Alphazero 或 Muzero 做出决策的方式似乎是通过蒙特卡洛树搜索,其中随机模拟允许比传统的 alpha-beta 修剪更快速的计算方式. 随着模拟空间的增加,这种搜索接近经典的树搜索。

Deepmind 到底在哪里使用了神经网络?是在评价部分吗?如果是这样,他们是如何决定什么是“好”或“坏”的游戏状态?如果他们推迟了对像 Stockfish 这样的另一个国际象棋引擎的评估,我们如何看待 AlphaZero 在面对面的比赛中绝对摧毁 Stockfish?

0个回答
没有发现任何回复~