AlphaZero 中的每个棋子是否有任何价值?

人工智能 深度学习 蒙特卡罗树搜索 零字母
2021-11-16 11:32:00

最近,DeepMind 的 AlphaZero 国际象棋算法比之前最好的国际象棋软件 Stockfish 做得更好。我阅读了使用通用强化学习算法通过 Self-Play 掌握国际象棋和将棋的论文,但我不确定是否:

  • 是否为每个棋子指定了一个值(例如,1 代表典当,3 代表马,9 代表皇后等)来训练算法,还是算法自己学习?

  • 我读到该算法使用蒙特卡洛树搜索,但是对已经使用 MCTS 的先前国际象棋算法的关键改进是什么?

  • 有希望能够在普通计算机上运行它吗?他们说这需要 9 个小时的学习(从除了规则之外的几乎 0 知识开始(也许对一件作品有价值?))和 2400 万场比赛。使用普通计算机可能在 1 个月内可行吗?

1个回答

是否为每个棋子指定了一个值(例如,1 代表典当,3 代表马,9 代表皇后等)来训练算法,还是算法自己学习?

不,没有分配给片段的明确值,没有手动构建的评估函数。该论文指出,除了游戏规则(运行模拟/运行搜索算法如 MCTS 所必需)之外,算法“没有领域知识”。

我读到该算法使用蒙特卡洛树搜索,但是对已经使用 MCTS 的先前国际象棋算法的关键改进是什么?

关键改进在于深度学习(深度神经网络)、强化学习和自我游戏与 MCTS 相结合的方式。这与 AlphaGo Zero 之前在围棋游戏中使用的方法非常相似。之前(很可能)已经有深度学习 + MCTS 的组合(例如,使用学习的神经网络来偏置 MCTS 中的推出),但它们在 AlphaZero 中组合的具体方式至关重要(特别是使用MCTS 作为神经网络的训练信号之一)。我们在这里谈论谷歌可能也有帮助,它有能力使用数千个张量处理单元 (TPU) 进行培训。

是否有希望能够在普通计算机上运行它?他们说这需要 9 个小时的学习时间(从几乎 0 知识开始,除了规则(也许还有价值?)),以及 2400 万场比赛。使用普通计算机可能在 1 个月内可行吗?

根据论文中的信息,我对此表示高度怀疑。如上所述,训练是使用数千个 TPU(特别是 5,000 个第一代 TPU 和 64 个第二代 TPU)并行完成的。一个月只是论文中报告的 9 小时训练时间的 80 倍左右,而所有这些 TPU 都远远超过 80 台普通计算机。

训练后,它很可能可以在相当普通的计算机(或者高端计算机)上运行。但首先需要更多的力量来训练。