在 Sutton 和 Barto 的书(第 6 章:TD learning,第 2 版)中,他提到了两种更新价值函数的方法:
- 蒙特卡罗方法:.
- TD(0) 方法:.
我明白那个就像一个学习率,它需要一定比例的 MC/TD 误差和更新值函数。
据我了解,在静止环境中,转移概率分布和奖励分布不会随时间变化。因此,应该使用衰减以更新价值函数。另一方面,由于分布在非平稳环境中随时间变化,应该保持不变,以便用最近的 TD/MC 错误更新价值函数(换句话说,历史无关紧要)。
困扰我的是,在示例 6.2、6.5 和 6.7 中,概率和奖励分布没有改变。那么为什么是恒定的-正在使用?
问题:如何在静止和非静止环境中变化?