我刚读到深度 Q 学习,它使用神经网络作为价值函数而不是表格。
我在这里看到了这个例子:Using Keras and Deep Q-Network to Play FlappyBird,他使用 CNN 来获得 Q 值。
我的困惑在于他神经网络的最后一层。输出层中的每个神经元都代表一个动作(拍打或不拍打)。我还看到其他项目的输出层也代表所有可用的操作(左移、停止等)
您将如何表示国际象棋游戏的所有可用动作?每个棋子都有一个独特且可用的动作。我们还需要选择它将移动多远(车可以移动超过一格)。我读过Giraffe 国际象棋引擎的论文,但找不到他是如何表示输出层的(我会再读一遍)。
我希望这里有人可以很好地解释如何在 Q-learning 中设计 NN 架构,我是强化学习的新手。