为什么 DQN 在 Cartpole 上使用线性激活?

人工智能 神经网络 dqn
2021-11-16 08:00:51

我一直在阅读很多关于 Cartpole 的 DQN 的教程。在其中许多中,它们的神经网络的漏斗层是线性激活的。为什么是这样?这只是实施者的选择吗?这个 Choice 是特定于 cartpole 的,还是大多数控制任务 dqns 都使用它?谢谢。

1个回答

Q learning 预测动作值,q(s,a)采取行动a处于状态s. 行动价值通常是所有未来奖励的贴现总和。一般来说,它可以采用任何标量值。

DQN 使用神经网络来近似q(s,a). 尽管您可以使用它来选择一个动作(因此将问题视为分类),但 NN 必须执行回归来预测动作值。

最常见的是使用线性最终层和 DQN 中的均方误差损失来匹配这个回归任务。所以是的,您会发现大多数控制 DQN 将做出与您正在查看的 cartpole 示例相同的选择。