新的 AlphaGo 实施是否使用生成对抗网络?

人工智能 强化学习 游戏-ai 生成对抗网络 蒙特卡罗树搜索 阿尔法戈
2021-11-10 05:02:00

我通读了《在没有人类知识的情况下掌握围棋游戏》一书它似乎没有使用 GAN,只是一种新形式的搜索和强化学习。

1个回答

不,使用 GAN。它是在它最擅长的方面进行强化学习。树搜索是一个有趣的补充,有助于导航游戏的庞大规模。

尽管代理正在发挥自己变得更好,但没有 2 个独立的网络(生成器和判别器)。代理通过 RL 学习,没有生成器和判别器的错误计算。