多智能体强化学习(MARL)的传统设置是有一组智能体和外部环境的模式。奖励由外部环境单独或集体给予每个代理。
我的问题是 - 是否存在 MARL 模型,其中一个代理人将奖励给予另一代理人,这意味着一个代理人产生成本而其他代理人 - 收入(甚至可能是利润?
实际上,这意味着分布式监督:只有一些代理以真正的奖励/监督面对环境,然后这种监督或多或少有效地传播给其他代理,这些代理学习/执行自己的专门任务,这些专门任务是在 MARL 中分布式执行/解决的集体任务的一部分.
多智能体强化学习(MARL)的传统设置是有一组智能体和外部环境的模式。奖励由外部环境单独或集体给予每个代理。
我的问题是 - 是否存在 MARL 模型,其中一个代理人将奖励给予另一代理人,这意味着一个代理人产生成本而其他代理人 - 收入(甚至可能是利润?
实际上,这意味着分布式监督:只有一些代理以真正的奖励/监督面对环境,然后这种监督或多或少有效地传播给其他代理,这些代理学习/执行自己的专门任务,这些专门任务是在 MARL 中分布式执行/解决的集体任务的一部分.
这主要是一个实现架构问题,问题是基本上你可以在传统环境中实现任何东西。要这样做而不是拥有Env<->Agent1<->Agent2,您应该拥有Agent1<->SuperEnv<->Agent2where SuperEnvcontains Env,并简单地使用给予的奖励SuperEnvbyAgent1并将其传递给Agent2.
我知道在将实现与现实世界的问题设置进行比较时,这似乎有点违反直觉,但是 RL 结构的一致性(即与所有代理交互的环境)对于您的解决方案很容易理解非常重要其他。