机器算法验证 - 博弈论和强化学习有什么关系？ - 吾爱随笔录

博弈论和强化学习有什么关系？

机器算法验证深度学习强化学习博弈论

2022-02-13 02:20:59

我对（深度）强化学习（RL）很感兴趣。在进入这个领域之前，我应该参加博弈论 (GT)课程吗？

GT和RL有什么关系？

3个回答

在强化学习 (RL) 中，通常会想象一个潜在的马尔可夫决策过程 (MDP)。那么 RL 的目标是为 MDP 学习一个好的策略，这通常只是部分指定的。MDP 可以有不同的目标，例如总奖励、平均奖励或折扣奖励，其中折扣奖励是 RL 最常见的假设。有充分研究的 MDP 扩展到两人（即游戏）设置；见，例如，

Filar、Jerzy 和 Koos Vrieze。竞争马尔可夫决策过程。施普林格科学与商业媒体，2012 年。

MDP 及其对两人（零和）博弈的扩展共享一个基本理论，包括例如 Banach 不动点定理、价值迭代、贝尔曼最优性、策略迭代/策略改进等。然而，虽然有MDP（以及 RL）与这些特定类型的游戏之间的密切联系：

您可以直接了解 RL（和 MDP），无需 GT 作为先决条件；
无论如何，您不会在大多数 GT 课程中了解这些内容（通常会关注例如战略形式、扩展形式和重复博弈，而不是概括 MDP 的基于状态的无限博弈）。

博弈论在多智能体强化学习 (MARL) 的背景下非常重要。

查看随机博弈或阅读文章An Analysis of Stochastic Game Theory for Multiagent Reinforcement Learning。

我不会将 GT 视为 RL 的先决条件。但是，它为多代理案例提供了很好的扩展。

RL：训练单个代理来解决马尔可夫决策问题 (MDPS)。GT：训练了两个代理来解决游戏问题。多智能体强化学习 (MARL) 可用于解决随机游戏。

如果你对 RL 在深度学习中的单智能体应用感兴趣，那么你不需要去任何 GT 课程。对于两个或更多代理，您可能需要了解博弈论技术。

其它你可能感兴趣的问题

上一篇人工神经网络等价于具有多项式特征的线性回归？下一篇“股票收益的横截面”中的横截面是什么？