AlphaGo Zero ( https://deepmind.com/blog/alphago-zero-learning-scratch/ ) 有几个关键组件有助于它的成功:
- 一种蒙特卡洛树搜索算法,可以更好地从围棋的状态空间中搜索和学习
- 一种深度神经网络架构,可学习给定状态的值和策略,以更好地通知 MCTS。
我的问题是,这个强化学习怎么样?或者更确切地说,该算法的哪些方面特别使其成为强化学习问题?难道这不能被认为是一个监督学习问题吗?
AlphaGo Zero ( https://deepmind.com/blog/alphago-zero-learning-scratch/ ) 有几个关键组件有助于它的成功:
我的问题是,这个强化学习怎么样?或者更确切地说,该算法的哪些方面特别使其成为强化学习问题?难道这不能被认为是一个监督学习问题吗?