人工智能 - AlphaZero 中的每个棋子是否有任何价值？ - 吾爱随笔录

AlphaZero 中的每个棋子是否有任何价值？

人工智能深度学习蒙特卡罗树搜索棋零字母

2021-11-16 11:32:00

最近，DeepMind 的 AlphaZero 国际象棋算法比之前最好的国际象棋软件 Stockfish 做得更好。我阅读了使用通用强化学习算法通过 Self-Play 掌握国际象棋和将棋的论文，但我不确定是否：

是否为每个棋子指定了一个值（例如，1 代表典当，3 代表马，9 代表皇后等）来训练算法，还是算法自己学习？
我读到该算法使用蒙特卡洛树搜索，但是对已经使用 MCTS 的先前国际象棋算法的关键改进是什么？
有希望能够在普通计算机上运行它吗？他们说这需要 9 个小时的学习（从除了规则之外的几乎 0 知识开始（也许对一件作品有价值？））和 2400 万场比赛。使用普通计算机可能在 1 个月内可行吗？

1个回答

是否为每个棋子指定了一个值（例如，1 代表典当，3 代表马，9 代表皇后等）来训练算法，还是算法自己学习？

不，没有分配给片段的明确值，没有手动构建的评估函数。该论文指出，除了游戏规则（运行模拟/运行搜索算法如 MCTS 所必需）之外，算法“没有领域知识”。

我读到该算法使用蒙特卡洛树搜索，但是对已经使用 MCTS 的先前国际象棋算法的关键改进是什么？

关键改进在于深度学习（深度神经网络）、强化学习和自我游戏与 MCTS 相结合的方式。这与 AlphaGo Zero 之前在围棋游戏中使用的方法非常相似。之前（很可能）已经有深度学习 + MCTS 的组合（例如，使用学习的神经网络来偏置 MCTS 中的推出），但它们在 AlphaZero 中组合的具体方式至关重要（特别是使用MCTS 作为神经网络的训练信号之一）。我们在这里谈论谷歌可能也有帮助，它有能力使用数千个张量处理单元 (TPU) 进行培训。

是否有希望能够在普通计算机上运行它？他们说这需要 9 个小时的学习时间（从几乎 0 知识开始，除了规则（也许还有价值？）），以及 2400 万场比赛。使用普通计算机可能在 1 个月内可行吗？

根据论文中的信息，我对此表示高度怀疑。如上所述，训练是使用数千个 TPU（特别是 5,000 个第一代 TPU 和 64 个第二代 TPU）并行完成的。一个月只是论文中报告的 9 小时训练时间的 80 倍左右，而所有这些 TPU 都远远超过 80 台普通计算机。

训练后，它很可能可以在相当普通的计算机（或者高端计算机）上运行。但首先需要更多的力量来训练。

其它你可能感兴趣的问题

上一篇维奥拉琼斯算法下一篇哪种类型的神经网络最适合玩实时游戏？