数据挖掘 - 论文Learning to Communicate with Deep Multi-Agent Reinforcement Learning中彩色数字MNIST游戏的意义是什么？ - 吾爱随笔录

我的问题是关于学习与深度多智能体强化学习进行通信的论文。谁能解释论文中彩色数字 MNIST 游戏的意义是什么？我从这里了解到，代理必须选择一个代表

如果（案例 1）代理 1 的颜色 == 代理 2 的奇偶校验
或（案例 2）代理 2 的颜色 == 代理 1 的奇偶校验。

案例 1 的奖励是案例 2 的两倍。因此，在最佳案例中，两个代理都应该学习（案例 1）通过消息将它们的奇偶性传达给其他代理，并学习根据自己的颜色检查收到的消息。但是，如果这似乎意味着案例 2 只是在获得最佳解决方案方面表现得像噪音或额外挑战。即使案例 2 术语不存在，代理仍然有一个学习非平凡的通信协议。话虽如此，案例 2 术语是否有任何基本含义/需要？