假设我们正在训练两个智能体使用自我游戏从头开始玩不对称游戏(例如星际争霸中的虫族与神族)。在训练期间,其中一个智能体可能会变得更强大(例如发现一个好的广泛策略)并开始赢得大部分时间,这导致该智能体的大部分状态值(或 Q(s,a) 值)变得非常高而另一个则低,只是因为第一个通常更强大并获得大部分奖励。一段时间后,另一个人发现了第一个游戏的弱点(在许多州也是如此)并开始占据主导地位,奖励流向另一个方向转移。
问题是,我们必须将函数逼近器(深度神经网络)重新训练到截然不同的值/Q 状态,这会减慢并破坏学习的稳定性。对于每个代理,这类似于高度非平稳的环境(对手),有时可能很苛刻或很容易。
在这种情况下,人们通常会怎么做?我认为需要的是某种缓慢变化的基线(类似于 A2C 中的优势),但适用于奖励值本身。