我有一个实时域,我需要为 N 个参与者分配一个动作,涉及将 O 个对象之一移动到 L 个位置之一。在每个时间步,我都会得到一个奖励 R,表示所有参与者的整体成功。
我有 10 个演员、50 个独特的对象和 1000 个位置,所以对于每个演员,我必须从 500000 个可能的动作中进行选择。此外,我可能会考虑 50 个环境因素,例如每个物体与墙壁的距离,或者它与演员的距离。这导致每个参与者有 25000000 个潜在操作。
几乎所有强化学习算法似乎都不适合这个领域。
首先,它们几乎都涉及评估给定状态下每个动作的预期效用。我的状态空间很大,所以即使我使用函数逼近,使用像 Q-learning 这样原始的东西来收敛一个策略也需要很长时间。即使我可以,在每个时间步的一百万个动作中找到最佳动作也需要很长时间。
其次,大多数算法假设每个参与者只有一个奖励,而我得到的奖励可能会被一个或多个参与者的错误所污染。
我应该如何解决这个问题?我没有找到此类领域的代码,而且我发现的关于多角色强化学习算法的几篇学术论文没有提供几乎足够的细节来重现所提出的算法。