这有什么证据?有人可以指点我参考吗?
它被称为“策略梯度定理”,一个很好的参考是Sutton & Barto强化学习:介绍在第二版中,REINFORCE 和 Actor-Critic 背后的理论在第 13 章中进行了研究。
简而言之,证明的重点是表明基于所见奖励和策略函数参数的特定表达式样本是策略函数相对于参数的梯度样本。因此,朝着这个采样值的方向迈出的一步,预计将是朝着增加与该政策相关的折扣奖励的预期总和(或平均预期奖励)的方向迈出的一步。
已知的最佳收敛速度是多少(如果有的话)?
这不是可以通过分析证明的,除非您已经知道以策略参数表示的损失函数(并且没有其他依赖于它们的情况)。即使对于简单的玩具环境,这也是不可能的。通常的方法是通过实验比较不同的算法,绘制学习曲线。实践中存在很多差异,因此学习曲线通常被绘制为多个训练场景的平均值。
据我所知,在不同的策略梯度方法之间,一般意义上没有一个明确的赢家。然而,将 TD 学习与策略梯度相结合的 Actor-Critic 和类似方法通常优于 REINFORCE 的基本方法,因为估计值函数的代理允许在每一步进行“引导式”更新。虽然这增加了初始偏差(因为价值函数估计器参数最初与真实价值函数无关),但它减少了方差并允许更多更新,因此通常更快收敛。
是否有任何公式适用于推广的平均奖励?
策略梯度的基础理论适用于在证明中进行微小更改的偶发、连续折扣和连续平均奖励公式。
算法 REINFORCE 不能应用于连续环境,因为仅在剧集结束时进行更新。Actor-Critic 方法可以适应平均奖励公式 -例如,请参阅本调查。