Sutton 和 Levine 的 REINFORCE 算法有什么区别?

人工智能 强化学习 比较 政策梯度 加强
2021-10-20 07:25:15

我关注了Berkley RL course的视频/幻灯片,但现在我在实施它时有点困惑。请看下面的图片。

幻灯片 9

特别是,什么i在 REINFORCE 算法中表示?如果τi是整个情节的轨迹i,那我们为什么不在剧集中平均1N,它近似于目标函数的梯度?相反,它是一个总和i. 那么,我们是更新每集的梯度还是分批更新它?当我将算法与 Sutton 的书进行比较时,如下所示,我看到我们更新了每集的梯度。

在此处输入图像描述

但这会不会与莱文幻灯片上的推导相矛盾,即目标函数的梯度J是对数梯度的期望(因此是采样)吗?

其次,为什么我们有超过T在萨顿的版本中,但不要在莱文的版本中这样做(相反,所有回报都加在一起)

1个回答

关于第一个问题,你是对的。i表示对应于整个情节的样本轨迹。但是,如果您选择,萨顿的版本与莱文的版本完全相同N=1.

关于第二个问题,Policy Gradient theorem 只告诉你直到一个常数的梯度是多少,所以基本上任何常数都是无关紧要的。现在,即使你知道常数,你也要将梯度乘以任意学习率α. 所以,你可以认为这个因素1N实际上已经被认为是“内部”α.