人工智能 - 是否存在多智能体强化学习模型，其中（某些）奖励是由其他智能体而不是由外部环境给出的？ - 吾爱随笔录

是否存在多智能体强化学习模型，其中（某些）奖励是由其他智能体而不是由外部环境给出的？

人工智能强化学习奖励多代理系统

2021-10-27 10:07:57

多智能体强化学习（MARL）的传统设置是有一组智能体和外部环境的模式。奖励由外部环境单独或集体给予每个代理。

我的问题是 - 是否存在 MARL 模型，其中一个代理人将奖励给予另一代理人，这意味着一个代理人产生成本而其他代理人 - 收入（甚至可能是利润？

实际上，这意味着分布式监督：只有一些代理以真正的奖励/监督面对环境，然后这种监督或多或少有效地传播给其他代理，这些代理学习/执行自己的专门任务，这些专门任务是在 MARL 中分布式执行/解决的集体任务的一部分.

1个回答

这主要是一个实现架构问题，问题是基本上你可以在传统环境中实现任何东西。要这样做而不是拥有Env<->Agent1<->Agent2，您应该拥有Agent1<->SuperEnv<->Agent2where SuperEnvcontains Env，并简单地使用给予的奖励SuperEnvbyAgent1并将其传递给Agent2.

我知道在将实现与现实世界的问题设置进行比较时，这似乎有点违反直觉，但是 RL 结构的一致性（即与所有代理交互的环境）对于您的解决方案很容易理解非常重要其他。

其它你可能感兴趣的问题

上一篇在遗传算法中使用可变种群大小有什么缺点吗？下一篇在机器学习文献中，说某物“嵌入”在某个空间中是什么意思？