理解 AlphaZero 论文需要哪些知识?

人工智能 强化学习 文件 零字母 萨顿巴托
2021-11-15 16:53:40

我的目标是理解 deepmind 发表的 AlphaZero 论文。我开始了我的旅程,试图从Barto 和 Sutton的书中获得强化学习的基本直觉。

根据我的背景,我熟悉 MDP、价值迭代和策略迭代。

我想问直到需要阅读 Barto 和 Sutton 书中的哪一章才能完全理解 AlphaZero 的论文。蒙特卡洛树搜索在本书的第 8 章中进行了讨论。到那时就够了吗?或者除了这本书之外,我还需要更多资源吗?

1个回答

您阅读的越多,您对任何论文的理解就越深入,但鉴于您所陈述的背景,请阅读 Barto & Sutton 的 Monte-Carlo Tree Search 章节,以及 Gerald Tesauro 的TD-Gammon 论文(这很容易获得,并且是AlphaZero 中使用其他技术的基础)应该足以很好地了解他们做了什么。