关于我正在谈论的纸牌游戏的更多信息在我的最后一个问题中:纸牌游戏的 DQN 输入表示
所以我在考虑 q 神经网络的输出,除了要打哪张牌,我想知道代理是否可以宣布事情。
想象一下你有当前手牌:(2, 4, 11, 2两者是不同的牌类型)。
当你在玩这个游戏时,你得到了这样的一手牌,你必须在任何人在桌子上打牌之前宣布你有两次(称为 Ronda)或三次(称为Tringa)相同的数字。撒谎会让你受到惩罚。
DQN 可以处理这个吗?我不知道将“宣布 Ronda/Tringa”作为一个动作添加是否真的会有所帮助。我的意思是,这是否可以为 NN 建模,或者我是否应该将其自动化并让代理不必每次都宣布它。