为什么DDPG的政策目标是Q值本身?

数据挖掘 强化学习
2022-03-06 18:57:53

有人可以解释为什么 DDPG 的政策目标是Q(s,μ(s))?

我对DDPG的理解是这样的。由于难以计算argmaxaQ(s,a)在连续空间中,DDPG 使用通用函数估计器(神经网络)来学习和预测实现的最佳动作maxQ(s,a)输出。

所以,我的问题是 DDPG 训练时的实际目标是什么μ(s)? 我认为它应该是在给定状态下给出最高 Q 值的实际动作s(argmaxaQ(s,a))。然而,在OpenAI spin up中,它说它可以做出近似maxaQ(s,a)Q(s,μ(s)), 并说保单的损失是E[Q(s,μ(s))].

这是什么意思?他们的目标是 Q 值,而不是行动值吗?这个策略怎么能学到最好的动作呢?

1个回答

在 DDPG 中,actor 网络用于计算在给定状态下最大化期望奖励的动作,即最大化Q功能。评论家网络用于计算给定状态下的动作值。因此,critic network 的更新方式就像 DQN 中的方式一样。然而,在更新演员时,我们没有监督的目标动作(最大化 Q 函数的实际动作),我们的目标是生成最大化的动作Q(s,a), 所以我们使用actor生成一个动作,将它应用到critic函数,然后修改actor参数以最大化Q(s,a),即梯度从 Q 网络一直流回参与者,并且使用梯度上升完成更新。因此,策略网络不是独立训练的,而是在评论家网络的帮助下使用Q价值作为目标,我会说保单的损失是E[Q(s,μ(s))].