为什么按总和为 1 的 lambda 加权确保资格跟踪收敛?

人工智能 强化学习 资格痕迹
2021-10-28 00:12:46

在 Sutton 和 Barto 的书第 12 章中,他们指出如果权重总和为 1,则方程的更新具有“保证收敛特性”。实际上为什么它可以确保收敛?

Richard S. Sutton 和 Andrew G. Barto 中提到的片段有完整的引用。第二版:

现在我们注意到,有效更新不仅可以针对任何 n 步回报,而且可以针对不同 ns 的任何平均 n 步回报。例如,可以对目标进行更新,该目标是两步返回的一半和四步返回的一半:12Gt:t+2+12Gt:t+4. 只要分量收益的权重为正且总和为 1,任何一组 n 步收益都可以用这种方式平均,即使是无限集合。复合收益具有类似于单个 n 步收益的误差减少特性步返回(7.3),因此可用于构建具有保证收敛特性的更新。

0个回答
没有发现任何回复~