Williams 提出的 REINFORCE 算法的任何示例代码?

机器算法验证 强化学习
2022-03-28 17:41:27

有谁知道在论文“A class of gradient-estimating algorithms for enhancement learning in neural networks”中提出的算法 Williams 的例子http://incompleteideas.net/sutton/williams-92.pdf

2个回答

来自 David Silver 的关于Policy Gradient 方法的 RL 讲座,此处的幻灯片 21 是情节强化算法的伪代码,它基本上是一种基于梯度的方法,其中预期回报直接从情节中采样(而不是通过一些学习来估计它)功能)。在这种情况下,预期回报实际上是该步骤之后的总情节奖励,Gt.

初始化θ

每集{s1,a1,r2...sT1,aT1,rT} 从政策中抽样πθ

    对于t = 1 到 T - 1

        θθ+αθlogπθ(st,at)Gt

    结束

结束

该算法存在高方差,因为采样的奖励在一个情节之间可能非常不同,因此该算法通常与从策略中减去的基线一起使用。这是一个更详细的解释,其中包含代码示例。

策略梯度强化学习的 REINFORCE 算法是一种简单的随机梯度算法。当剧集相当短时效果很好,因此可以模拟很多剧集。价值函数方法更适合较长的情节,因为它们可以在单个情节结束之前开始学习。