是否有一种多智能体深度强化学习算法适用于只有离散动作空间(非混合)并进行集中训练的环境?
我一直在寻找算法(A2C、MADDPG 等),但仍然没有找到任何提供我提到的所有属性的算法(多代理 + 离散动作空间 + 深度学习 + 集中训练)。
我想知道我们是否使用将状态作为输入并将代理的连接离散动作作为输出的参与者网络(例如,如果代理有 3 个动作并且我们有 4 个代理输出可以是 [0,0,1, 0,1,0 , 0,0,1, 1,0,0]) 那是个坏主意吗?
是否有一种多智能体深度强化学习算法适用于只有离散动作空间(非混合)并进行集中训练的环境?
我一直在寻找算法(A2C、MADDPG 等),但仍然没有找到任何提供我提到的所有属性的算法(多代理 + 离散动作空间 + 深度学习 + 集中训练)。
我想知道我们是否使用将状态作为输入并将代理的连接离散动作作为输出的参与者网络(例如,如果代理有 3 个动作并且我们有 4 个代理输出可以是 [0,0,1, 0,1,0 , 0,0,1, 1,0,0]) 那是个坏主意吗?
在具有离散动作空间的环境中采取行动的自然策略是 softmax。
本文描述了一种使用集中训练思想的方法,我相信可以在您的实现中使用。
关于你的最后一个问题,我不知道我是否理解,但如果你有一个必须执行 3 个动作的系统,你可以将每个动作分配给一个特定的代理(假设我们有三个不同的动作空间)。然后你会有一个有 3 个代理的合作游戏,他们都有一个共同的奖励函数。理论上,这 3 个智能体代表与环境交互的单个智能体。