我已经有功能了 为解决动态定价问题的单个代理的实现,以最大化收入为目标。然而,我正在处理的问题涉及几种不同的产品,它们相互替代,因此使用独立学习者对它们进行动态定价似乎是不正确的,因为一种产品的价格会影响另一种产品的回报。目标是动态地对它们进行定价,以使每个单独的收入的总和最大化。
我一直在做一些研究,试图找到以这种方式应用强化学习的东西,但我发现许多多智能体实现更多地关注竞争游戏而不是合作游戏,或者他们假设对其他智能体的了解不完整(我会在这种情况下每个代理的知识)。是否有任何经过充分研究/记录在案的合作学习应用?