有谁知道在论文“A class of gradient-estimating algorithms for enhancement learning in neural networks”中提出的算法 Williams 的例子http://incompleteideas.net/sutton/williams-92.pdf
Williams 提出的 REINFORCE 算法的任何示例代码?
机器算法验证
强化学习
2022-03-28 17:41:27
2个回答
来自 David Silver 的关于Policy Gradient 方法的 RL 讲座,此处的幻灯片 21 是情节强化算法的伪代码,它基本上是一种基于梯度的方法,其中预期回报直接从情节中采样(而不是通过一些学习来估计它)功能)。在这种情况下,预期回报实际上是该步骤之后的总情节奖励,.
初始化
每集{} 从政策中抽样 做
对于t = 1 到 T - 1做
结束
结束
该算法存在高方差,因为采样的奖励在一个情节之间可能非常不同,因此该算法通常与从策略中减去的基线一起使用。这是一个更详细的解释,其中包含代码示例。
策略梯度强化学习的 REINFORCE 算法是一种简单的随机梯度算法。当剧集相当短时效果很好,因此可以模拟很多剧集。价值函数方法更适合较长的情节,因为它们可以在单个情节结束之前开始学习。