AlphaGo Zero 如何实现强化学习?

人工智能 强化学习 蒙特卡罗树搜索 监督学习 阿尔法零
2021-10-25 10:22:35

AlphaGo Zero ( https://deepmind.com/blog/alphago-zero-learning-scratch/ ) 有几个关键组件有助于它的成功:

  1. 一种蒙特卡洛树搜索算法,可以更好地从围棋的状态空间中搜索和学习
  2. 一种深度神经网络架构,可学习给定状态的值和策略,以更好地通知 MCTS。

我的问题是,这个强化学习怎么样?或者更确切地说,该算法的哪些方面特别使其成为强化学习问题?难道这不能被认为是一个监督学习问题吗?

1个回答

如果您从经验(即与环境的交互)中学习策略或价值函数,那就是 RL。在 AlphaGo 的情况下,MCTS 用于获取经验。

RL 实际上可以被认为是监督学习 (SL),或者更具体地说,是自我监督学习,其中体验对应于 SL 中的标签,尤其是现在使用经验回放等技术。