数据挖掘 - 为什么DDPG的政策目标是Q值本身？ - 吾爱随笔录

为什么DDPG的政策目标是Q值本身？

数据挖掘强化学习

2022-03-06 18:57:53

有人可以解释为什么 DDPG 的政策目标是 $Q(s,\mu(s))$ ?

我对DDPG的理解是这样的。由于难以计算 $argmax_a Q(s,a)$ 在连续空间中，DDPG 使用通用函数估计器（神经网络）来学习和预测实现的最佳动作 $maxQ(s,a)$ 输出。

所以，我的问题是 DDPG 训练时的实际目标是什么 $\mu(s)$ ? 我认为它应该是在给定状态下给出最高 Q 值的实际动作 $s$ ( $argmax_aQ(s,a)$ ）。然而，在OpenAI spin up中，它说它可以做出近似 $max_aQ(s,a)\approx Q(s,\mu(s))$ , 并说保单的损失是 $E[Q(s, \mu(s))]$ .

这是什么意思？他们的目标是 Q 值，而不是行动值吗？这个策略怎么能学到最好的动作呢？

1个回答

在 DDPG 中，actor 网络用于计算在给定状态下最大化期望奖励的动作，即最大化 $Q$ 功能。评论家网络用于计算给定状态下的动作值。因此，critic network 的更新方式就像 DQN 中的方式一样。然而，在更新演员时，我们没有监督的目标动作（最大化 Q 函数的实际动作），我们的目标是生成最大化的动作 $Q(s,a)$ , 所以我们使用actor生成一个动作，将它应用到critic函数，然后修改actor参数以最大化 $Q(s,a)$ ，即梯度从 Q 网络一直流回参与者，并且使用梯度上升完成更新。因此，策略网络不是独立训练的，而是在评论家网络的帮助下使用 $Q$ 价值作为目标，我会说保单的损失是 $-E[Q(s, \mu(s))]$ .

其它你可能感兴趣的问题

上一篇如何处理多步 ML 管道中的评估下一篇基于我的数据集预测一天/小时的建模策略