博弈论和强化学习有什么关系?

机器算法验证 深度学习 强化学习 博弈论
2022-02-13 02:20:59

我对(深度)强化学习(RL)很感兴趣。在进入这个领域之前,我应该参加博弈论 (GT)课程吗?

GTRL什么关系?

3个回答

在强化学习 (RL) 中,通常会想象一个潜在的马尔可夫决策过程 (MDP)。那么 RL 的目标是为 MDP 学习一个好的策略,这通常只是部分指定的。MDP 可以有不同的目标,例如总奖励、平均奖励或折扣奖励,其中折扣奖励是 RL 最常见的假设。有充分研究的 MDP 扩展到两人(即游戏)设置;见,例如,

Filar、Jerzy 和 Koos Vrieze。竞争马尔可夫决策过程施普林格科学与商业媒体,2012 年。

MDP 及其对两人(零和)博弈的扩展共享一个基本理论,包括例如 Banach 不动点定理、价值迭代、贝尔曼最优性、策略迭代/策略改进等。然而,虽然有MDP(以及 RL)与这些特定类型的游戏之间的密切联系:

  • 您可以直接了解 RL(和 MDP),无需 GT 作为先决条件;
  • 无论如何,您不会在大多数 GT 课程中了解这些内容(通常会关注例如战略形式、扩展形式和重复博弈,而不是概括 MDP 的基于状态的无限博弈)。

博弈论在多智能体强化学习 (MARL) 的背景下非常重要。

查看随机博弈或阅读文章An Analysis of Stochastic Game Theory for Multiagent Reinforcement Learning

我不会将 GT 视为 RL 的先决条件。但是,它为多代理案例提供了很好的扩展。

RL:训练单个代理来解决马尔可夫决策问题 (MDPS)。GT:训练了两个代理来解决游戏问题。多智能体强化学习 (MARL) 可用于解决随机游戏。

如果你对 RL 在深度学习中的单智能体应用感兴趣,那么你不需要去任何 GT 课程。对于两个或更多代理,您可能需要了解博弈论技术。