为什么AlphaGo输掉了围棋比赛?

人工智能 游戏-ai 深思熟虑 阿尔法戈
2021-11-14 06:13:50

我们可以在 wiki 页面上看到,2016 年 3 月,AlphaGo AI 输给了职业围棋选手李世石(5 场比赛中的 1 场)。一篇文章引用说:

AlphaGo 输掉了一场比赛,我们作为研究人员想要探索并找出问题所在。我们需要弄清楚它的弱点是什么,并尝试改进它。

研究人员是否已经弄清楚出了什么问题?

1个回答

我们知道李在比赛中的策略是什么,这似乎是应该奏效的。是一篇解释它的文章。简短版本:是的,我们知道出了什么问题,但可能还不知道如何解决它。

基本上,AlphaGo 擅长做出很多小的决定,并且比人类更好地管理风险和不确定性。与以前玩围棋的机器人相比,它令人惊讶的一件事是它在战术战斗中的出色表现。在之前的比赛中,李建立了 AlphaGo 需要进攻的阵地,随后 AlphaGo 成功进攻。

所以在这场比赛中,李采取了相反的策略。他不会试图赢得许多不同的影响力战斗,而 AlphaGo 已经证明它比他更强大,而是建立一场关键的战斗(一路上会造成轻微的损失),然后在那里击败它,通过连锁反应来解决匹配对他有利。

那么 AlphaGo 的弱点是什么?据我了解,这是蒙特卡洛树搜索(MCTS)的基本限制。MCTS 通过随机抽样博弈树并对它们进行平均来工作;如果某个位置 70% 的对局顺利,而另一个位置 30% 的对局进行顺利,那么您可能应该采取第一步而不是第二步。

但是当有一个特定的打法顺序很顺利时——比如说,如果 W 有一条路径要求他们每次都下正确的棋子,但 B 对这条路径没有可能的响应——那么 MCTS 就会崩溃,因为你只能通过极小极大推理找到那条狭窄的路径,而从较慢的极小极大推理转向更快的 MCTS 是机器人现在比过去更好的重要原因之一。

目前尚不清楚如何解决这个问题。可能有一种方法可以注意到这种威胁,然后暂时从 MCTS 推理切换到极小极大推理,或者在内存中保留特定轨迹以供将来考虑。