出于某种原因,AlphaGo Zero 并没有像最初的 AlphaGo 那样得到那么多的宣传,尽管它取得了令人难以置信的成绩。从零开始,它已经击败了 AlphaGo Master,并通过了许多其他基准测试。更令人难以置信的是,它在 40 天内完成了这项工作。谷歌将其命名为“可以说是世界上最好的围棋选手”。
DeepMind 声称这是一种“新形式的强化学习”——这种技术真的很新吗?或者有没有其他时候使用过这种技术——如果是这样,他们的结果是什么?我认为我正在谈论的要求是 1) 没有人为干预和 2) 没有历史游戏,但这些都是灵活的。
这似乎是一个类似的问题,但所有的答案似乎都是从 AlphaGo Zero 是同类中的第一个假设开始的。