简单策略梯度算法中策略损失函数的负值是预期收益的估计量吗?

人工智能 强化学习 政策梯度
2021-11-03 07:12:16

θJ(πθ)=Eτπθ[t=0Tθlogπθ(at|st)R(τ)]
是简单策略梯度的扩展表达式,其中θ是策略的参数π,J表示预期的返回函数,τ是状态和动作的轨迹,t是一个时间步长索引,并且R给出轨迹的奖励总和.

D是用于训练的所有轨迹的集合。上述策略梯度的估计量由下式给出

g^=1DτDt=0Tθlogπθ(at|st)R(τ).
与这个估计器相关的损失函数,给定一个单一的轨迹T时间步长,由下式给出
L(τ)=t=0Tlogπθ(at|st)R(τ).
最小化L(τ)通过 SGD 或类似算法将导致有效的策略梯度实现。

我的问题是这个损失函数的正确术语是什么?它是预期回报的(无偏吗?)估计量J(πθ)如果对所有轨迹求和?如果有人能够提供证明最小化L最大化J(πθ),或指向我的参考,将不胜感激。

1个回答

如果我正确理解您的问题,您想知道政策梯度目标是否与某些实际的进展衡量标准一致。这正是政策梯度定理所证明的(参见 Sutton 等人(2000)或 Sutton 和 Barto(2018),第 13 章)。特别是,策略梯度方法优化了起始状态的值s0在现行政策下,vπ(s0). 由于这个值被定义为对回报的期望,那么你的结论是正确的。

萨顿、理查德 S. 和安德鲁 G. 巴托。2018.强化学习 - 简介自适应计算和机器学习。麻省理工学院出版社。 http://www.worldcat.org/oclc/37293240

Sutton、Richard S、David A McAllester、Satinder P Singh 和 Yishay Mansour。2000.“使用函数逼近的强化学习的策略梯度方法”。神经信息处理系统的进展中,1057-63。