人工智能 - 为什么按总和为 1 的 lambda 加权确保资格跟踪收敛？ - 吾爱随笔录

在 Sutton 和 Barto 的书第 12 章中，他们指出如果权重总和为 1，则方程的更新具有“保证收敛特性”。实际上为什么它可以确保收敛？

Richard S. Sutton 和 Andrew G. Barto 中提到的片段有完整的引用。第二版：

现在我们注意到，有效更新不仅可以针对任何 n 步回报，而且可以针对不同 ns 的任何平均 n 步回报。例如，可以对目标进行更新，该目标是两步返回的一半和四步返回的一半： $\frac{1}{2}G_{t:t+2} + \frac{1}{2}G_{t:t+4}$ . 只要分量收益的权重为正且总和为 1，任何一组 n 步收益都可以用这种方式平均，即使是无限集合。复合收益具有类似于单个 n 步收益的误差减少特性步返回（7.3），因此可用于构建具有保证收敛特性的更新。