我正在为一个名为估计的 4 人纸牌游戏编写虚拟环境,并将使用深度强化学习来教代理玩它。
每个玩家拿到一手 13 张牌,第一阶段是让每个玩家估计他们将收集的技巧数量。最高的玩家首先开始,然后在每一轮之后,收集技巧的玩家开始下一个。所以基本上第一阶段是投标,下一阶段包括 13 轮。
我将使用的状态输入将包括所有已玩过的牌、目标和收集的技巧,以及可用的牌。每轮的输出将是一个长度为 54 的向量,包含所有牌,然后将播放具有最高概率的可用牌。
起初我认为叫牌阶段应该使用相同的输入,但除了可用的手牌之外的所有地方都是零,输出将排除所有没有数字的牌,如国王、王后或杰克。但随后冲刺的能力(估计你将收集 0 个技巧)将不可用。我也不认为它会很好地工作。
我应该在每个阶段只使用两个 NN,还是应该怎么做?此外,如果有人对我需要注意的事情有任何建议,如果他们分享,我将不胜感激。