人工智能 - AlphaGo Zero 如何实现强化学习？ - 吾爱随笔录

人工智能强化学习蒙特卡罗树搜索监督学习阿尔法零去

2021-10-25 10:22:35

AlphaGo Zero ( https://deepmind.com/blog/alphago-zero-learning-scratch/ ) 有几个关键组件有助于它的成功：

我的问题是，这个强化学习怎么样？或者更确切地说，该算法的哪些方面特别使其成为强化学习问题？难道这不能被认为是一个监督学习问题吗？

1个回答

如果您从经验（即与环境的交互）中学习策略或价值函数，那就是 RL。在 AlphaGo 的情况下，MCTS 用于获取经验。

RL 实际上可以被认为是监督学习 (SL)，或者更具体地说，是自我监督学习，其中体验对应于 SL 中的标签，尤其是现在使用经验回放等技术。

其它你可能感兴趣的问题