有人可以解释为什么 DDPG 的政策目标是?
我对DDPG的理解是这样的。由于难以计算在连续空间中,DDPG 使用通用函数估计器(神经网络)来学习和预测实现的最佳动作输出。
所以,我的问题是 DDPG 训练时的实际目标是什么? 我认为它应该是在给定状态下给出最高 Q 值的实际动作()。然而,在OpenAI spin up中,它说它可以做出近似, 并说保单的损失是.
这是什么意思?他们的目标是 Q 值,而不是行动值吗?这个策略怎么能学到最好的动作呢?
有人可以解释为什么 DDPG 的政策目标是?
我对DDPG的理解是这样的。由于难以计算在连续空间中,DDPG 使用通用函数估计器(神经网络)来学习和预测实现的最佳动作输出。
所以,我的问题是 DDPG 训练时的实际目标是什么? 我认为它应该是在给定状态下给出最高 Q 值的实际动作()。然而,在OpenAI spin up中,它说它可以做出近似, 并说保单的损失是.
这是什么意思?他们的目标是 Q 值,而不是行动值吗?这个策略怎么能学到最好的动作呢?
在 DDPG 中,actor 网络用于计算在给定状态下最大化期望奖励的动作,即最大化功能。评论家网络用于计算给定状态下的动作值。因此,critic network 的更新方式就像 DQN 中的方式一样。然而,在更新演员时,我们没有监督的目标动作(最大化 Q 函数的实际动作),我们的目标是生成最大化的动作, 所以我们使用actor生成一个动作,将它应用到critic函数,然后修改actor参数以最大化,即梯度从 Q 网络一直流回参与者,并且使用梯度上升完成更新。因此,策略网络不是独立训练的,而是在评论家网络的帮助下使用价值作为目标,我会说保单的损失是.