我已经在 Pacman 上实现了一个相对简单的 DQN。
现在我想清楚地了解 DQN 与 AlphaGo zero/AlphaZero 使用的技术之间的区别,但我找不到可以比较这两种方法的特征的地方。
有时,在阅读博客时,我相信不同的术语实际上可能是同一个数学工具,这增加了清楚理解差异的难度。例如,DQN 的变体,例如 Double DQN 也使用两个网络,例如 alpha zero。
有人对这个问题有很好的参考吗?无论是书籍还是在线资源。
我已经在 Pacman 上实现了一个相对简单的 DQN。
现在我想清楚地了解 DQN 与 AlphaGo zero/AlphaZero 使用的技术之间的区别,但我找不到可以比较这两种方法的特征的地方。
有时,在阅读博客时,我相信不同的术语实际上可能是同一个数学工具,这增加了清楚理解差异的难度。例如,DQN 的变体,例如 Double DQN 也使用两个网络,例如 alpha zero。
有人对这个问题有很好的参考吗?无论是书籍还是在线资源。
DQN 和 AlphaZero 在实现方面没有太多共同之处。
但是,它们基于相同的强化学习 (RL) 理论框架。如果您了解 MDP、奖励、回报、价值、政策等术语,那么这些术语可以在 DQN 和 AlphaZero 之间互换。当涉及到实施以及系统的每个部分在做什么时,这是不可互换的。例如,您在 AlphaZero 中读到的两个网络是策略网络和价值网络。而双 DQN 在两个价值网络之间交替。
总结 DQN 和 AlphaZero 并解释它们如何以不同方式扩展基本 RL 框架的最佳资源可能是 Sutton & Barto 的强化学习:简介(第二版) ——第 16 章第 5 和第 6 节涵盖了 DQN Atari 的设计, AlphaGo 和 AlphaZero 有一定深度。
简单来说:
您实际上可以将类似 AlphaZero 的方法与 DQN 结合起来: A* + DQN