我的目标是理解 deepmind 发表的 AlphaZero 论文。我开始了我的旅程,试图从Barto 和 Sutton的书中获得强化学习的基本直觉。
根据我的背景,我熟悉 MDP、价值迭代和策略迭代。
我想问直到需要阅读 Barto 和 Sutton 书中的哪一章才能完全理解 AlphaZero 的论文。蒙特卡洛树搜索在本书的第 8 章中进行了讨论。到那时就够了吗?或者除了这本书之外,我还需要更多资源吗?
我的目标是理解 deepmind 发表的 AlphaZero 论文。我开始了我的旅程,试图从Barto 和 Sutton的书中获得强化学习的基本直觉。
根据我的背景,我熟悉 MDP、价值迭代和策略迭代。
我想问直到需要阅读 Barto 和 Sutton 书中的哪一章才能完全理解 AlphaZero 的论文。蒙特卡洛树搜索在本书的第 8 章中进行了讨论。到那时就够了吗?或者除了这本书之外,我还需要更多资源吗?
您阅读的越多,您对任何论文的理解就越深入,但鉴于您所陈述的背景,请阅读 Barto & Sutton 的 Monte-Carlo Tree Search 章节,以及 Gerald Tesauro 的TD-Gammon 论文(这很容易获得,并且是AlphaZero 中使用的其他技术的基础)应该足以很好地了解他们做了什么。