我不是该主题的专家,我的问题可能非常幼稚。它源于一篇文章,旨在了解 AlphaGo 程序中使用的强化学习的力量和局限性。
AlphaGo 程序是使用神经网络构建的,其中包括(蒙特卡洛对树的探索等),这些神经网络是从一个巨大的人类围棋游戏数据库中训练出来的,然后通过让游戏的游戏版本得到加强。多次对自己编程。
现在我想知道如果我们尝试在没有人类数据库的情况下构建这样一个程序会发生什么,即从一个基本的围棋程序开始,只知道规则和一些探索树的方法,然后让自己对战以改进它的神经网络。我们会在与自己多次对战之后,得出一个能够与最优秀的人类玩家竞争或击败的程序吗?如果是这样,那么需要多少游戏(按数量级)?或者相反,这样的程序是否会向弱得多的玩家收敛?
我假设这个实验还没有进行,因为 AlphaGo 是最近才出现的。但对于专家来说,答案可能是显而易见的。否则任何有根据的猜测都会让我感兴趣。
人们也可以对“更简单”的游戏提出同样的问题。如果我们在国际象棋程序中使用与 AlphaGo 大致相同的强化学习技术,但不使用人类数据库,我们最终会得到一个能够击败最优秀人类的程序吗?如果是这样,多快?这个试过了吗?或者如果不是国际象棋,那么跳棋,甚至更简单的游戏呢?
非常感谢。