非平稳 k 臂老虎机问题中的加权平均值是多少?

人工智能 机器学习 强化学习 术语 数学 多臂强盗
2021-11-16 04:37:03

在 Richard S. Sutton 和 Andrew G. Barto 所著的Reinforcement Learning: An Introduction(第 25 页)一书中,讨论了 k 臂老虎机问题,其中老虎机的预期奖励会随着时间而略有变化(即,问题是非平稳的)。本书建议使用恒定的步长参数,而不是通过取所有奖励的平均值来更新 Q 值,以便对最近的奖励给予更大的权重。因此:

n+1=n+α(Rn-n),

在哪里α是一个介于 0 和 1 之间的常数。

然后该书指出这是一个加权平均值,因为权重之和等于 1这是什么意思?为什么这是真的?

1个回答

加权平均值代表所有值的线性组合,使得所有权重的总和为 1。

更具体地说,如果你用向量表示奖励X,加权平均值将取两者之间的点积X和一个向量W这样0W一世1和所有的总和W一世是 1。

如果每个W一世=1/n这将是一个加权平均值(也就是平均值)。使用指数衰减W一世=α一世/(W一世)也是加权平均。

然后,两种计算 Q 值的策略都使用先前奖励的加权平均值。