教神经网络玩纸牌游戏有两个阶段

人工智能 神经网络 强化学习
2021-10-20 13:39:53

我正在为一个名为估计的 4 人纸牌游戏编写虚拟环境,并将使用深度强化学习来教代理玩它。

每个玩家拿到一手 13 张牌,第一阶段是让每个玩家估计他们将收集的技巧数量。最高的玩家首先开始,然后在每一轮之后,收集技巧的玩家开始下一个。所以基本上第一阶段是投标,下一阶段包括 13 轮。

我将使用的状态输入将包括所有已玩过的牌、目标和收集的技巧,以及可用的牌。每轮的输出将是一个长度为 54 的向量,包含所有牌,然后将播放具有最高概率的可用牌。

起初我认为叫牌阶段应该使用相同的输入,但除了可用的手牌之外的所有地方都是零,输出将排除所有没有数字的牌,如国王、王后或杰克。但随后冲刺的能力(估计你将收集 0 个技巧)将不可用。我也不认为它会很好地工作。

我应该在每个阶段只使用两个 NN,还是应该怎么做?此外,如果有人对我需要注意的事情有任何建议,如果他们分享,我将不胜感激。

1个回答

我玩过这个游戏。如果我没记错的话,一个成功的策略(赢得你估计会赢的尽可能多的技巧)包括不断评估你的表现。如果相对于最初的估计,你的表现非常糟糕,那么这是有价值的信息。

我认为你应该有一个网络来输出——在每一步——包括对未来赢得的技巧的估计和要玩哪张牌的动作。这具有额外的优势,可以为您提供更多用于训练的估计经验。在所有回合之后,你会知道你在整个游戏中的每个估计有多远。这应该可以加快游戏那部分的学习速度。