在 Sutton 和 Barto 的书第 12 章中,他们指出如果权重总和为 1,则方程的更新具有“保证收敛特性”。实际上为什么它可以确保收敛?
Richard S. Sutton 和 Andrew G. Barto 中提到的片段有完整的引用。第二版:
现在我们注意到,有效更新不仅可以针对任何 n 步回报,而且可以针对不同 ns 的任何平均 n 步回报。例如,可以对目标进行更新,该目标是两步返回的一半和四步返回的一半:. 只要分量收益的权重为正且总和为 1,任何一组 n 步收益都可以用这种方式平均,即使是无限集合。复合收益具有类似于单个 n 步收益的误差减少特性步返回(7.3),因此可用于构建具有保证收敛特性的更新。