数据挖掘 - 强化学习中的博弈论 - 吾爱随笔录

强化学习中的博弈论

数据挖掘深度学习强化学习深思熟虑

2021-09-17 06:24:09

在 Deepmind 最近的一篇博文中，他们在 Alpha Star 算法中使用了博弈论。 Deep Mind Alpha-Star :

掌握这个问题需要在几个人工智能研究挑战中取得突破，包括：

博弈论：星际争霸是一个游戏，就像石头剪刀布一样，没有单一的最佳策略。因此，人工智能培训过程需要不断探索和扩展战略知识的前沿。

当涉及到强化学习时，博弈论在哪里应用？

1个回答

当涉及到强化学习时，博弈论在哪里应用？

在这种情况下没有直接使用，AlphaStar 在博弈论上也没有任何突破。此处博客的措辞不是非常精确。

引用的重点是解释额外的挑战，这种挑战发生在许多对手可以对彼此的选择做出反应的游戏中，并且通常对任何给定的策略都有反策略。Rock-paper-scissors 是具有此挑战的最简单的游戏，但它在许多策略游戏中很常见，因为游戏设计者通常不希望单一的最佳策略来主导游戏，通常会花费一些时间来平衡选项游戏，以便他们使用更多的游戏内容，并在游戏社区中保持一定程度的不确定性和兴奋感。

您问题中引用的实际突破在于寻找方法来执行允许不同高级策略的长期探索。许多 RL 算法执行相对局部的探索，这对于跟踪完全不同的策略并决定何时使用它们来说太弱了。

Deep Mind 团队的处理方式在他们的博客中进行了解释：

为了鼓励联盟的多样性，每个智能体都有自己的学习目标：例如，这个智能体应该旨在击败哪些竞争对手，以及任何其他影响智能体比赛方式的内部动机。一个代理人可能有一个目标是击败一个特定的竞争对手，而另一位代理人可能必须击败整个分布的竞争对手 [ . . . ]

所以 Deep Mind没有在理论上解决任何问题，也没有在任何直接意义上使用博弈论。然而，他们已经确定了适用的博弈论场景，并在设计中使用了它，在工程意义上朝着实际解决方案迈出了一步。

RL 中的其他解决方案也可能适用，例如用于捕获高级动作作为通知低级决策的策略的分层 RL ，或使用缓慢变化的噪声函数来驱动探索（而不是变化更快的东西，例如 epsilon-greedy） .

一般来说，博弈论与强化学习有关，因为两者都构建了优化效用的正式观点：

博弈论对于分析多智能体场景很有用，但通常分析相对简单的单步或重复博弈的最优策略。
强化学习对单个代理进行了很好的描述，并且可以很好地处理顺序决策，但在处理竞争和合作的多代理环境方面没有那么多材料——通常将其他代理视为“环境的一部分” ”。

这两种理论之间有足够的交叉点，它们可以用来以直观的方式相互告知，就像 Deep Mind 在这里所做的那样。

在更易于处理的博弈环境中，博弈论能够确定稳定有效的策略——例如在石头剪刀布中，纳什均衡策略（玩家将因离开而受到惩罚）随机选择每个动作 1/ 3 概率。请注意，这不一定是最优策略——取决于对手的行为——但对于两个理性且有能力的对手来说，这是一个预期的稳定结果。

如果您使用 RL 开发了一个剪刀石头布学习机器人，并且它通过自我游戏来学习这种策略，那么您可以相对高兴您的学习算法有效。那将是同时使用 RL 和博弈论的一种方式。

Deep Mind不知道星际争霸策略的纳什均衡，实际上这些策略只是从低级动作的角度进行了松散的定义，所以不清楚是否可行。博客中提供的策略分析（例如“快速”策略）基于对游戏的观察并添加了人类叙述以帮助理解正在发生的事情。在实践中，是对每个喜欢不同策略或在游戏中设定特定目标的对手进行抽样，训练一个基于神经网络的机器人，该机器人具有对抗多种策略的经验，并且可以表达最佳地击败任何匹配的策略的动作它在自我游戏中学到的模式并观察对手使用的模式。

其它你可能感兴趣的问题

上一篇什么是过滤器和内核大小？下一篇没有 Sigmoid 导数的 CNN 反向传播