这个问题很久以前就被问到了,我认为现在应该得到更好的回答。一般来说,对于强化学习,这个问题被称为“稀疏奖励问题”。这篇Medium 文章涵盖了这个问题和一些解决方案,但您只需运行搜索即可找到更多解决方案。
我不会详细介绍解决此问题的算法的细节,而是会向您指出解决此问题的一些关键成功应用以及简短的一般描述:
Deepmind的 AlphaStar
星际争霸 II 几乎与帝国时代一模一样,AlphaStar 能够在游戏中击败一些世界上最优秀的玩家。
在这里,他们为玩游戏的 AI 创建了一个锦标赛系统,并生成了 AI 将遵循的不同游戏风格和策略。然后,他们使用遗传算法对顶级 AI 进行修改,以便它们慢慢改进,确保最好的 AI 可以对抗所有不同类型的 AI。
OpenAI的OpenAI 五
(这是一个很酷的剪辑,显示 OpenAI 5 比 DOTA 中的顶级玩家之一更聪明。)
OpenAI Five 玩的是 DOTA 游戏,这与英雄联盟几乎完全一样。在这里,他们预编程了一些会彻底改变游戏玩法的决策树选项,例如英雄购买的物品,然后让 AI 选择其余选项。(不过,请注意,预制的构建选项意味着它不理解/没想到你可以对抗一些英雄+物品的组合。)
为了让五个不同的英雄一起玩,他们让同一个 AI 的副本控制每个英雄,并奖励每个 AI 团队的表现以及每个英雄的表现。这使得训练可以从个人层面开始,然后最终扩展到团体比赛。
OpenAI Five 模型也很好,因为它相当通用。他们使用相同的训练过程来创建Dactyl,它可以操纵手中的立方体。
全面的
除了这两个之外,我还没有看到太多其他 AI 玩复杂的游戏,并且有许多不同的移动选项。我的猜测是它需要大量的计算能力,而 OpenAI 和 Deepmind 是唯一拥有这种计算能力的公司。本文认为这可能是由于计算机科学家经常使用的树表示。