我对(深度)强化学习(RL)很感兴趣。在进入这个领域之前,我应该参加博弈论 (GT)课程吗?
GT和RL有什么关系?
我对(深度)强化学习(RL)很感兴趣。在进入这个领域之前,我应该参加博弈论 (GT)课程吗?
GT和RL有什么关系?
在强化学习 (RL) 中,通常会想象一个潜在的马尔可夫决策过程 (MDP)。那么 RL 的目标是为 MDP 学习一个好的策略,这通常只是部分指定的。MDP 可以有不同的目标,例如总奖励、平均奖励或折扣奖励,其中折扣奖励是 RL 最常见的假设。有充分研究的 MDP 扩展到两人(即游戏)设置;见,例如,
Filar、Jerzy 和 Koos Vrieze。竞争马尔可夫决策过程。施普林格科学与商业媒体,2012 年。
MDP 及其对两人(零和)博弈的扩展共享一个基本理论,包括例如 Banach 不动点定理、价值迭代、贝尔曼最优性、策略迭代/策略改进等。然而,虽然有MDP(以及 RL)与这些特定类型的游戏之间的密切联系:
博弈论在多智能体强化学习 (MARL) 的背景下非常重要。
查看随机博弈或阅读文章An Analysis of Stochastic Game Theory for Multiagent Reinforcement Learning。
我不会将 GT 视为 RL 的先决条件。但是,它为多代理案例提供了很好的扩展。
RL:训练单个代理来解决马尔可夫决策问题 (MDPS)。GT:训练了两个代理来解决游戏问题。多智能体强化学习 (MARL) 可用于解决随机游戏。
如果你对 RL 在深度学习中的单智能体应用感兴趣,那么你不需要去任何 GT 课程。对于两个或更多代理,您可能需要了解博弈论技术。