人工智能 - 简单策略梯度算法中策略损失函数的负值是预期收益的估计量吗？ - 吾爱随笔录

让

\nabla_{θ} J (π_{θ}) = E_{τ \sim π_{θ}} [\sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} | s_{t}) R (τ)]

$\nabla_\theta J(\pi_\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t = 0}^T \nabla_\theta \log \pi_\theta (a_t|s_t) R(\tau) \right]$ 是简单策略梯度的扩展表达式，其中

θ

$\theta$ 是策略的参数

π

$\pi$ ,

J

$J$ 表示预期的返回函数，

τ

$\tau$ 是状态和动作的轨迹，

t

$t$ 是一个时间步长索引，并且

R

$R$ 给出轨迹的奖励总和.

让 $\mathcal{D}$ 是用于训练的所有轨迹的集合。上述策略梯度的估计量由下式给出

\hat{g} = \frac{1}{D} \sum_{τ \in D} \sum_{t = 0}^{T} \nabla_{θ} \log π_{θ} (a_{t} | s_{t}) R (τ) .

$\hat{g} = \frac{1}{\mathcal{D}} \sum_{\tau \in \mathcal{D}} \sum_{t = 0}^T \nabla_\theta \log \pi_\theta (a_t|s_t) R(\tau).$ 与这个估计器相关的损失函数，给定一个单一的轨迹

T

$T$ 时间步长，由下式给出

L (τ) = - \sum_{t = 0}^{T} \log π_{θ} (a_{t} | s_{t}) R (τ) .

$L(\tau) = -\sum_{t = 0}^T \log \pi_\theta (a_t|s_t) R(\tau).$ 最小化

L (τ)

$L(\tau)$ 通过 SGD 或类似算法将导致有效的策略梯度实现。

我的问题是这个损失函数的正确术语是什么？它是预期回报的（无偏吗？）估计量 $J(\pi_\theta)$ 如果对所有轨迹求和？如果有人能够提供证明最小化 $L$ 最大化 $J(\pi_\theta)$ ，或指向我的参考，将不胜感激。