人工智能 - 为什么 DQN 在 Cartpole 上使用线性激活？ - 吾爱随笔录

人工智能神经网络 dqn

2021-11-16 08:00:51

我一直在阅读很多关于 Cartpole 的 DQN 的教程。在其中许多中，它们的神经网络的漏斗层是线性激活的。为什么是这样？这只是实施者的选择吗？这个 Choice 是特定于 cartpole 的，还是大多数控制任务 dqns 都使用它？谢谢。

1个回答

Q learning 预测动作值， $q(s, a)$ 采取行动 $a$ 处于状态 $s$ . 行动价值通常是所有未来奖励的贴现总和。一般来说，它可以采用任何标量值。

DQN 使用神经网络来近似 $q(s, a)$ . 尽管您可以使用它来选择一个动作（因此将问题视为分类），但 NN 必须执行回归来预测动作值。

最常见的是使用线性最终层和 DQN 中的均方误差损失来匹配这个回归任务。所以是的，您会发现大多数控制 DQN 将做出与您正在查看的 cartpole 示例相同的选择。

其它你可能感兴趣的问题