我的问题是关于学习与深度多智能体强化学习进行通信的论文。谁能解释论文中彩色数字 MNIST 游戏的意义是什么?我从这里了解到,代理必须选择一个代表
如果(案例 1)代理 1 的颜色 == 代理 2 的奇偶校验
或(案例 2)代理 2 的颜色 == 代理 1 的奇偶校验。
案例 1 的奖励是案例 2 的两倍。因此,在最佳案例中,两个代理都应该学习(案例 1)通过消息将它们的奇偶性传达给其他代理,并学习根据自己的颜色检查收到的消息。但是,如果这似乎意味着案例 2 只是在获得最佳解决方案方面表现得像噪音或额外挑战。即使案例 2 术语不存在,代理仍然有一个学习非平凡的通信协议。话虽如此,案例 2 术语是否有任何基本含义/需要?