多代理或自玩环境是否总是自动 POMDP?

人工智能 强化学习 马尔可夫决策过程 pomdp 自我游戏 观察空间
2021-11-12 21:27:30

作为我论文的一部分,我正在使用 RL 进行零和游戏来训练代理。

游戏是实时游戏,pong的派生词,可以想象打乒乓球时双方都是桌上足球。

在我看来,这是一个具有完美信息的 MDP,因为我使用环境提供的传感器数据来了解杆的准确线性和角度位置以及球的位置、方向和速度。

这些信息将用作特征向量,将传递到代理网络。

我考虑过使用自我游戏来提高挂钟时间的训练速度,现在不太确定这个游戏是否是一个完美的信息 MDP,因为涉及到两个玩家(双方相同的网络)和策略第二个玩家没有出现在馈送到网络的观察中。

所以游戏可能是一个完美的信息MDP,但是涉及到两个“玩家”,还是这样吗?还是涉及多个学习者的事实只会使环境更加不稳定,而不是部分可观察?我还找到了一篇相关的论文:https ://www.researchgate.net/publication/220301660_The_world_of_Independent_learners_is_not_Markovian

1个回答

一般来说,“完美信息”不是 MDP 的正式特征。有一个马尔可夫属性的概念,但它只是与“完美信息”大致相符。例如,存在未知/隐藏状态是可以的,只要它的行为是随机有效的(当显示时,它是从一致分布中提取的)。一个例子可能是单人纸牌游戏 - 或者对手有固定策略的游戏,例如大多数二十一点的实现 - 这作为 MDP 很好,而不是 POMDP。

“完美信息”游戏是国际象棋。棋盘的当前状态给出了玩游戏所需的所有信息,并且没有额外的状态。当与具有固定策略的对手对抗时,这也具有马尔可夫属性。当与许多不同的对手进行一般比赛时,您不能依赖对手的策略与训练相同,那么实际上它是非马尔可夫或POMDP。最大化奖励的玩法取决于对手。

然而,在许多游戏中,都有“完美游戏”的概念,即从当前游戏状态中强制获得最佳结果。使用极小极大方法的规划/搜索程序在理论上可以解决这些博弈,强化学习代理可以通过假设对手也试图以这种博弈论最优方法进行游戏来学习它们。这与针对任何给定对手的最佳打法并不完全相同 - 相比之下,与由于对手可能做的事情而试图触发对手的错误相比,它是非常安全和规避风险的。但是,它通常会导致 RL 中的稳定解决方案和强大的参与者。

自我博弈强化学习倾向于收敛于相同的博弈论完美博弈,前提是它在给定环境中是稳定的。一个为两个玩家使用相同学习引擎的代理将在一个玩家或另一个玩家犯错的情况下进步,并且其对手模型将利用这一点,直到失败的玩家找到纠正其错误的动作。

为了避免这种错误/修复场景成为学习和学习的停滞循环,通常针对自身的多个版本(有时是其他代理)训练代理以帮助其进步。同样,只要环境支持稳定的博弈论策略,就可以避免所有对抗性选择的错误。大多数(可能全部?我不确定这里的理论)两人游戏都是这样的。当您扩展到三个或更多玩家时,我相信这变得更加难以弄清楚。