我一直致力于研究使用多智能体强化学习来再现社会行为。我的重点一直是 GridWorld 风格的游戏,但我想也许一个更简单的囚徒困境游戏可能是一个更好的方法。我试图在这个方向上找到现有的研究论文,但找不到,所以我想描述一下我在寻找什么,以防这里有人知道这样的研究。
我正在寻找对多个 RL 代理相互玩迭代囚徒困境并出现社会行为的场景的研究。让我具体说明一下我所说的“社交行为”是什么意思。我看到的关于 RL/IPD(示例)的大多数研究都集中在如何实现理想策略、如何最快实现目标以及出现哪些常见的策略原型。这一切都很好,但不是我感兴趣的。
执行“以牙还牙”策略的智能体正在对其他玩家的“好”行为给予正强化,而对“坏”行为给予负强化。这就是它获胜的原因。我的重点是,这种胡萝卜加大棒的方法是单独完成的,而不是分组完成的。我想看到它在一个群体中发展。
我希望看到一整群特工进化成根据其他玩家在群体中的表现来惩罚和奖励他们。我相信在这种情况下可以观察到迷人的群体动态。
十年前我编写了这样一个场景,但通过手动编写算法,而不是使用深度 RL。我想使用深度 RL 来做,但首先我想知道是否有现有的尝试。
有谁知道这样的研究是否存在?