我通读了《在没有人类知识的情况下掌握围棋游戏》一书。它似乎没有使用 GAN,只是一种新形式的搜索和强化学习。
新的 AlphaGo 实施是否使用生成对抗网络?
人工智能
强化学习
游戏-ai
生成对抗网络
蒙特卡罗树搜索
阿尔法戈
2021-11-10 05:02:00
1个回答
不,不使用 GAN。它是在它最擅长的方面进行强化学习。树搜索是一个有趣的补充,有助于导航游戏的庞大规模。
尽管代理正在发挥自己变得更好,但没有 2 个独立的网络(生成器和判别器)。代理通过 RL 学习,没有生成器和判别器的错误计算。