数据挖掘 - Actor-Critic 架构：政策如何更新？ - 吾爱随笔录

Actor-Critic 架构：政策如何更新？

数据挖掘强化学习

2021-09-16 21:04:34

我正在浏览ddpg 基线代码，试图直观地了解演员和评论家网络的运作方式。

DDPG 有两个组成部分：作为确定性策略的参与者\pi和作为状态价值函数的批评者Q(s, a)。更新actor的方式\pi是计算的梯度Q(s, \pi(s))。这个想法是，该策略可以被视为一个连续的等价物argmax，因此您尝试对其进行更新，例如在给定状态下采取最大化 Q 函数的操作。

这可以如下图所示。

该代码显示了创建的三个不同的神经网络。

actor_tf = create_neural_net(observations) # Maps states to desired actions
critic_tf = create_neural_net(observations, actions) # Updates value function
critic_with_actor_tf = create_neural_net(observations, actor_tf) # Used for policy updating

我的问题是如何更新政策，更具体地说是critic_with_actor_tf.

正如这里所解释的，

所以critic_with_actor_tf 表示遵循策略（参与者）（）的状态（此处）Q(s,\pi(s))中的动作状态值。这是用来计算actor梯度的：sobservation = statepia = \pi(s)

 self.actor_loss = -tf.reduce_mean(self.critic_with_actor_tf)

因此，似乎通过减少的均值来更新演员critic_with_actor_tf。

这就提出了一个问题，上图中显示的TD 错误代表什么，它与更新策略有什么关系？

2个回答

您基本上有两个问题：

学习 Q 函数
学习政策

Q 函数告诉你一个动作的奖励程度 $a$ 将处于状态 $s$ . 一旦你采取行动 $a$ 并从状态转换 $s$ 到 $s'$ , 你得到奖励 $r$ 马上。采取行动是多么有益 $a$ 在 $s$ 是收到的奖励的总和 $r$ 和你最终进入的状态的 Q 值，因此你想要最小化

r + 问 (s^{'}, {一个}^{'}, w) - 问 (s, 一个, w)

$r + Q(s', a', w) - Q(s, a, w)$

在哪里 $w$ 是函数逼近器的参数和 $a'$ 在以下状态下您将采取的行动 $s'$ . 这是 TD 误差，将其最小化将学习 Q 函数。

因此，TD 误差用于学习 Q 函数，与普通（深度）Q 学习中的方法基本相同。但是，虽然在普通（深度）Q 学习中，你会完全基于 Q 函数（加上一些随机性以免卡住），但在 actor-critic 上下文中，Q 函数只是一种手段结束训练策略本身。因此，学习到的 Q 函数然后通过学习策略参数作为策略的优化目标 $u$ 使其输出动作 $a$ 最大化 $Q(s,a,w)$ （请参阅您的其他问题）。在这种情况下会弹出链式规则，因为您不是试图通过最小化一些错误来进行回归，而是试图最大化 $Q$ 关于其论点之一。

TD Error 用于直接更新critic 而不是actor。

演员在评论家的方向上更新，使用：

\frac{\partial l}{\partial 你} = \frac{\partial 问 (s, 一个, w)}{\partial 一个} \frac{\partial 一个}{\partial 你}

$\begin{equation} \frac{\partial l}{\partial u} = \frac{\partial Q(s, a, w)}{\partial a} \frac{\partial a}{\partial u} \end{equation}$

跟进这个方程在这里真正意味着什么的问题。

其它你可能感兴趣的问题

上一篇为什么光谱聚类会导致不相交的聚类？下一篇我们如何将时间序列数据转换为监督学习问题？