数据挖掘 - 合作强化学习 - 吾爱随笔录

我已经有功能了 $Q(\lambda)$ 为解决动态定价问题的单个代理的实现，以最大化收入为目标。然而，我正在处理的问题涉及几种不同的产品，它们相互替代，因此使用独立学习者对它们进行动态定价似乎是不正确的，因为一种产品的价格会影响另一种产品的回报。目标是动态地对它们进行定价，以使每个单独的收入的总和最大化。

我一直在做一些研究，试图找到以这种方式应用强化学习的东西，但我发现许多多智能体实现更多地关注竞争游戏而不是合作游戏，或者他们假设对其他智能体的了解不完整（我会在这种情况下每个代理的知识）。是否有任何经过充分研究/记录在案的合作学习应用？