是什么阻止 Cepheus 推广到完整的扑克游戏?

人工智能 强化学习 赌博
2021-10-23 11:35:30

Cepheus是一种用于玩德州扑克的人工智能。通过与自己对战并了解它可以在哪些方面做得更好,它在游戏中变得非常出色。Slate Star Codex评论:

我最初很困惑为什么他们发布这个结果而不是去在线赌场并变得足够富有以购买小国家,但它似乎是一个只有两个玩家的非常简化的游戏版本。更有趣的是,该策略是强化学习——计算机从最少的领域知识开始,然后与自己玩扑克无数次,直到它学会了它需要知道的一切。

显然,仙王座目前只与一个人比赛。看到它设法为这种“非常简化”的环境制定了惊人的策略,是什么阻止了它在真实/完整的扑克游戏中工作?

1个回答

Cepheus 不能泛化的原因与决策点的数量有关。

同一位作者最近发布了深筹码(DeepStack:单挑无限注 (HUNL) 扑克中的专家级人工智能),这让许多职业扑克玩家感到恐惧。

DeepStack arxiv 论文中,他们说

人工智能技术 (Cepheus) 之前在简单的单挑限制德州扑克游戏中取得了成功,其中所有赌注都是固定大小的,导致不到 10^14 个决策点。

...

不完全信息博弈 HUNL 大小可比,决策点数超过 10^160

...

与类似大小的完美信息博弈相比,不完美信息博弈需要更复杂的推理。在特定时刻的正确决定取决于对手掌握的私人信息的概率分布,这些信息通过他们过去的行动揭示出来。

对 HUNL 使用与 Cepheus 相同的策略是不可能的。相反,根据之前的游戏进行有根据的猜测或使用直觉(在论文中称为Continual Re-solving)是一种可以更好地处理这个庞大游戏的方法。有关更多信息,请查看DeepStack 网站