AlphaGo Zero 中的“新型强化学习算法”是什么?

数据挖掘 机器学习 深度学习
2021-09-15 07:30:43

出于某种原因,AlphaGo Zero 并没有像最初的 AlphaGo 那样得到那么多的宣传,尽管它取得了令人难以置信的成绩。从零开始,它已经击败了 AlphaGo Master,并通过了许多其他基准测试。更令人难以置信的是,它在 40 天内完成了这项工作。谷歌将其命名为“可以说是世界上最好的围棋选手”

DeepMind 声称这是一种“新形式的强化学习”——这种技术真的很新吗?或者有没有其他时候使用过这种技术——如果是这样,他们的结果是什么?我认为我正在谈论的要求是 1) 没有人为干预和 2) 没有历史游戏,但这些都是灵活的。

似乎是一个类似的问题,但所有的答案似乎都是从 AlphaGo Zero 是同类中的第一个假设开始的。

1个回答

NatureAlphaGo Zero文章“在没有人类知识的情况下掌握围棋游戏”声称与早期版本有四个主要区别:

  1. 仅自学(未受过人类游戏训练)
  2. 仅使用棋盘和石头作为输入(没有手写特征)。
  3. 将单个神经网络用于政策和价值观
  4. 一种新的树搜索算法,它使用这种组合的策略/价值网络来指导在哪里搜索好的动作。

第 (1) 点和 (2) 点在强化学习中并不是新的,而是在对您问题的评论中所述的之前的AlphaGo软件上有所改进。这只是意味着他们现在正在使用从随机初始化的权重开始的纯强化学习。这是通过更好、更快的学习算法实现的。

他们在这里的主张是“我们的主要贡献是证明在没有人类领域知识的情况下也可以实现超人的表现。” (第 22 页)。

第 (3) 点和 (4) 点是新颖的,因为它们的算法比以前的方法更简单、更通用。他们还提到这是对郭等人以前工作的改进。

统一策略/价值网络 (3) 使他们能够实现更有效的蒙特卡洛树搜索变体来搜索好的移动,同时使用搜索树更快地训练网络 (4)。这是非常强大的。

此外,他们描述了许多有趣的实现细节,例如批处理和重用数据结构以优化对新动作的搜索。

效果是它需要更少的计算能力,运行在 4 个 TPU 上,而不是以前版本的软件的 176 个 GPU 和 48 个 TPU。

这绝对使它在 Go 软件的上下文中“新颖”。我相信(3)和(4)在更广泛的背景下也是“新颖的”,并将适用于其他强化学习领域,例如机器人。