我一直在阅读很多关于 Cartpole 的 DQN 的教程。在其中许多中,它们的神经网络的漏斗层是线性激活的。为什么是这样?这只是实施者的选择吗?这个 Choice 是特定于 cartpole 的,还是大多数控制任务 dqns 都使用它?谢谢。
为什么 DQN 在 Cartpole 上使用线性激活?
人工智能
神经网络
dqn
2021-11-16 08:00:51
1个回答
Q learning 预测动作值,采取行动处于状态. 行动价值通常是所有未来奖励的贴现总和。一般来说,它可以采用任何标量值。
DQN 使用神经网络来近似. 尽管您可以使用它来选择一个动作(因此将问题视为分类),但 NN 必须执行回归来预测动作值。
最常见的是使用线性最终层和 DQN 中的均方误差损失来匹配这个回归任务。所以是的,您会发现大多数控制 DQN 将做出与您正在查看的 cartpole 示例相同的选择。
其它你可能感兴趣的问题