在 Richard S. Sutton 和 Andrew G. Barto 所著的Reinforcement Learning: An Introduction(第 25 页)一书中,讨论了 k 臂老虎机问题,其中老虎机的预期奖励会随着时间而略有变化(即,问题是非平稳的)。本书建议使用恒定的步长参数,而不是通过取所有奖励的平均值来更新 Q 值,以便对最近的奖励给予更大的权重。因此:
在哪里是一个介于 0 和 1 之间的常数。
然后该书指出这是一个加权平均值,因为权重之和等于 1。这是什么意思?为什么这是真的?