人工智能 - 如何处理非对称自我博弈强化学习中的非平稳奖励？ - 吾爱随笔录

假设我们正在训练两个智能体使用自我游戏从头开始玩不对称游戏（例如星际争霸中的虫族与神族）。在训练期间，其中一个智能体可能会变得更强大（例如发现一个好的广泛策略）并开始赢得大部分时间，这导致该智能体的大部分状态值（或 Q(s,a) 值）变得非常高而另一个则低，只是因为第一个通常更强大并获得大部分奖励。一段时间后，另一个人发现了第一个游戏的弱点（在许多州也是如此）并开始占据主导地位，奖励流向另一个方向转移。

问题是，我们必须将函数逼近器（深度神经网络）重新训练到截然不同的值/Q 状态，这会减慢并破坏学习的稳定性。对于每个代理，这类似于高度非平稳的环境（对手），有时可能很苛刻或很容易。

在这种情况下，人们通常会怎么做？我认为需要的是某种缓慢变化的基线（类似于 A2C 中的优势），但适用于奖励值本身。