人工智能 - 教神经网络玩纸牌游戏有两个阶段 - 吾爱随笔录

我正在为一个名为估计的 4 人纸牌游戏编写虚拟环境，并将使用深度强化学习来教代理玩它。

每个玩家拿到一手 13 张牌，第一阶段是让每个玩家估计他们将收集的技巧数量。最高的玩家首先开始，然后在每一轮之后，收集技巧的玩家开始下一个。所以基本上第一阶段是投标，下一阶段包括 13 轮。

我将使用的状态输入将包括所有已玩过的牌、目标和收集的技巧，以及可用的牌。每轮的输出将是一个长度为 54 的向量，包含所有牌，然后将播放具有最高概率的可用牌。

起初我认为叫牌阶段应该使用相同的输入，但除了可用的手牌之外的所有地方都是零，输出将排除所有没有数字的牌，如国王、王后或杰克。但随后冲刺的能力（估计你将收集 0 个技巧）将不可用。我也不认为它会很好地工作。

我应该在每个阶段只使用两个 NN，还是应该怎么做？此外，如果有人对我需要注意的事情有任何建议，如果他们分享，我将不胜感激。