数据挖掘 - AlphaGo Zero 能否适应对手的技能/概况？ - 吾爱随笔录

AlphaGo Zero 能否适应对手的技能/概况？

数据挖掘机器学习神经网络游戏

2022-02-24 14:15:03

我阅读了 AlphaGo Zero 论文，但我并没有在其中找到任何相关内容。但我想知道 AlphaGo Zero 是否可以适应对手的打法（对手档案）或类似的东西。谢谢！！

2个回答

但我想知道 AlphaGo Zero 是否可以适应对手的打法（对手档案）或类似的东西。

这不包括在所写的算法中，对手的“轮廓”实际上是 AlphaGo 零本身（通过自我游戏学习）。

目前尚不清楚根据特定对手调整比赛风格是否会带来任何优势。很难评估，因为 AlphaGo Zero 是如此强大的棋手，它会在与人类棋手的比赛中赢得很大比例。寻求和衡量任何改进，除了与早期版本相比，将非常困难。

然而，在代码中可能有几个地方，从理论上讲，学习对手的打法可以让 AlphaGo Zero 更有效率。最明显的是在“推出”政策中（我不能 100% 确定他们是否使用相同的术语），其中算法在游戏中模拟和采样不同的可能轨迹，以预测可能的结果。

AlphaGo 中当前的推出策略是通过自我对弈来学习的。但它只是一个神经网络，可以预测在给定棋盘状态下进行游戏的概率。它可以很容易地以监督学习的方式进行调整，基于对手的抽样比赛。如果可以准确地学习它，那么它应该使搜索更加有效和准确 - 不可能但理想的情况是它可以准确预测对手的动作，从而可以快速找到最终的反击。事实上，最初的 AlphaGo 推出政策确实以这种方式模拟人类游戏。它基于许多人类大师级游戏动作的大型数据库，而不是单个玩家。Deep Mind 团队确实在他们的论文中提出，这在当时产生了更好的结果比自我游戏策略——他们都尝试了，而且人类数据库更好。从那时起，AlphaGo Zero 的性能已经超越了没有人类动作数据库的原始 AlphaGo。

适应对手并不重要，因为围棋只关乎输赢。它赢得的速度越快/越明显，没有更大的奖励。

或者换一种说法：在最小-最大设置中，只有当前的棋盘情况很重要（尽管状态的近似值诚然取决于对手）

其它你可能感兴趣的问题

上一篇什么是直接超集？下一篇绘图显示自变量和因变量之间的关系（二进制）