我阅读了 AlphaGo Zero 论文,但我并没有在其中找到任何相关内容。但我想知道 AlphaGo Zero 是否可以适应对手的打法(对手档案)或类似的东西。谢谢!!
AlphaGo Zero 能否适应对手的技能/概况?
数据挖掘
机器学习
神经网络
游戏
2022-02-24 14:15:03
2个回答
但我想知道 AlphaGo Zero 是否可以适应对手的打法(对手档案)或类似的东西。
这不包括在所写的算法中,对手的“轮廓”实际上是 AlphaGo 零本身(通过自我游戏学习)。
目前尚不清楚根据特定对手调整比赛风格是否会带来任何优势。很难评估,因为 AlphaGo Zero 是如此强大的棋手,它会在与人类棋手的比赛中赢得很大比例。寻求和衡量任何改进,除了与早期版本相比,将非常困难。
然而,在代码中可能有几个地方,从理论上讲,学习对手的打法可以让 AlphaGo Zero 更有效率。最明显的是在“推出”政策中(我不能 100% 确定他们是否使用相同的术语),其中算法在游戏中模拟和采样不同的可能轨迹,以预测可能的结果。
AlphaGo 中当前的推出策略是通过自我对弈来学习的。但它只是一个神经网络,可以预测在给定棋盘状态下进行游戏的概率。它可以很容易地以监督学习的方式进行调整,基于对手的抽样比赛。如果可以准确地学习它,那么它应该使搜索更加有效和准确 - 不可能但理想的情况是它可以准确预测对手的动作,从而可以快速找到最终的反击。事实上,最初的 AlphaGo 推出政策确实以这种方式模拟人类游戏。它基于许多人类大师级游戏动作的大型数据库,而不是单个玩家。Deep Mind 团队确实在他们的论文中提出,这在当时产生了更好的结果比自我游戏策略——他们都尝试了,而且人类数据库更好。从那时起,AlphaGo Zero 的性能已经超越了没有人类动作数据库的原始 AlphaGo。
适应对手并不重要,因为围棋只关乎输赢。它赢得的速度越快/越明显,没有更大的奖励。
或者换一种说法:在最小-最大设置中,只有当前的棋盘情况很重要(尽管状态的近似值诚然取决于对手)
其它你可能感兴趣的问题