合作强化学习

数据挖掘 机器学习 强化学习
2021-10-06 06:03:00

我已经有功能了 (λ)为解决动态定价问题的单个代理的实现,以最大化收入为目标。然而,我正在处理的问题涉及几种不同的产品,它们相互替代,因此使用独立学习者对它们进行动态定价似乎是不正确的,因为一种产品的价格会影响另一种产品的回报。目标是动态地对它们进行定价,以使每个单独的收入的总和最大化。

我一直在做一些研究,试图找到以这种方式应用强化学习的东西,但我发现许多多智能体实现更多地关注竞争游戏而不是合作游戏,或者他们假设对其他智能体的了解不完整(我会在这种情况下每个代理的知识)。是否有任何经过充分研究/记录在案的合作学习应用?

2个回答

总而言之,你想要达到的是帕累托效率。

为了使其具有合作性,您需要定义一个由所有玩家共享的单个奖励函数(它可以是一个以某种方式组合单个奖励函数的函数)。

不知何故,您需要权衡您从一种产品获得的奖励相对于其他产品。