数据挖掘 - 策略梯度的成本函数和梯度如何工作？ - 吾爱随笔录

策略梯度的成本函数和梯度如何工作？

数据挖掘强化学习成本函数政策梯度

2022-03-08 17:42:44

我不是数学专家，但对线性代数、微积分和概率有基本的了解，并且我了解反向传播背后的数学。目前我正在尝试学习策略梯度算法，但我很难理解基础数学。神经网络训练中最常用的成本函数包括目标和输出。例如：

微博：

E_{t o t a l} = \sum \frac{1}{2} (t a r g e t - o u t p u t)^{2}

$E_{total} = \sum{\frac{1}{2}(target - output)^2}$

日志损失：

E r r o r = O u t p u t (i) * (1 - O u t p u t (i)) * (T a r g e t (i) - O u t p u t (i))

$Error = Output(i) * (1 - Output(i)) * (Target(i) - Output(i))$

这个想法是找到参数 $\theta$ 这减少了目标和输出之间的距离。

但是在策略梯度方法中，成本函数是这样的：

g = E [\sum R_{t} * \frac{(\partial)}{(\partial θ)} l n π_{θ} (a_{t} | s_{t})]

$g = \mathbb E\Big[\sum R_t*\frac{(\partial)} {(\partial\theta)}ln\pi_\theta(a_t|s_t)\Big]$

策略梯度成本函数的目标和输出是什么？

这个成本函数是如何最小化的，它是如何工作的？

1个回答

在策略梯度中，我们对最大化预期奖励感兴趣。为此，我们假设预期奖励由参数参数化 $\theta$ （例如神经网络。这意味着为了最大化预期奖励，我们需要找到这些参数。在数学符号中：

θ^{⋆} = \arg max_{θ} J (θ) = \arg max_{θ} E_{τ \sim p_{θ} (τ)} [\sum_{t} r (s_{t}, a_{t})]

$\theta^{\star}=\arg \max _{\theta} J(\theta) =\arg \max _{\theta} E_{\tau \sim p_{\theta}(\tau)}\left[\sum_{t} r\left(\mathbf{s}_{t}, \mathbf{a}_{t}\right)\right]$

在哪里 $\tau$ 是从策略中采样的轨迹 $p_\theta$ . 为了解决这个问题，我们需要梯度上升，以便更新我们的参数： $\theta = \theta + \alpha\nabla J(\theta)$ . 因此，如果我们计算预期奖励的梯度，我们将正确更新参数以获得更大的预期奖励。您可以看一下似然比和 REINFORCE，它分析地解释了整个优化过程。

为了解决这个问题，你需要策略梯度定理，它将引导你得到你所拥有的方程。换句话说，通过使用您提到的梯度形式，我们正在更新我们的参数以获得更高的预期回报。此外，PG 更接近分类（成本敏感）而不是回归。

就神经网络（并假设随机策略）而言，通常情况下，您的输入将是状态，而您的输出将是动作分布和/或预期奖励，从而将状态映射到动作概率（和/或奖励预测）。已经证明，额外的奖励预测比仅使用策略损失带来更好的结果，因为它驱动 NN 的表示来预测预期奖励（而不仅仅是动作分布）。

其它你可能感兴趣的问题

上一篇自动编码器还是基于层的降维？下一篇如何使用python逐行读取特定值的特定时间