学习率如何αα在静止和非静止环境中变化?

人工智能 蒙特卡罗方法 时差法 环境 学习率
2021-11-15 05:58:48

在 Sutton 和 Barto 的书(第 6 章:TD learning,第 2 版)中,他提到了两种更新价值函数的方法:

  1. 蒙特卡罗方法:V(St)V(St)+α[GtV(St)].
  2. TD(0) 方法:V(St)V(St)+α[Rt+1+γV(St+1)V(St)].

我明白那个α就像一个学习率,它需要一定比例的 MC/TD 误差和更新值函数。

据我了解,在静止环境中,转移概率分布和奖励分布不会随时间变化。因此,应该使用α衰减以更新价值函数。另一方面,由于分布在非平稳环境中随时间变化,α应该保持不变,以便用最近的 TD/MC 错误更新价值函数(换句话说,历史无关紧要)。

困扰我的是,在示例 6.2、6.5 和 6.7 中,概率和奖励分布没有改变。那么为什么是恒定的-α正在使用?

问题:如何α在静止和非静止环境中变化?

1个回答

那么为什么是恒定的-α正在使用?

这是因为控制场景在价值函数方面本质上是非平稳的。衰减 alpha 会带来风险,即对策略的改进将逐渐变得更慢,因为对改变策略的影响将被缓慢地学习。

据我了解,在静止环境中,转移概率分布和奖励分布不会随时间变化。

当考虑即时奖励和从任何给予的过渡时,这是正确的(s,a)一对。但是您忘记了策略功能π(a|s) 在智能体发现最优策略时确实会随时间变化,这会影响正在估计的轨迹和期望值。

问题:如何α在静止和非静止环境中变化?

对于非平稳环境,您需要保持一些最低学习率α还有一些最小的探索(ϵ如果你正在使用ϵ-贪婪的探索)。

在静止环境中,学习率计划仍然有效并且可能有用。在参考基本算法的收敛证明时,您将看到它的讨论。

例如,在第二版的强化学习:介绍中,它关于 Q 学习的收敛说:

在这个假设和关于步长参数序列的通常随机近似条件的变体下,Q 已被证明以概率 1 收敛到 q.

“通常的步长参数序列上的随机近似条件”部分是对衰减学习率的参考。

然而,由于处理探索与利用的复杂性、控制场景中价值预测的固有非平稳性质以及使函数近似起作用的困难,学习率衰减的讨论在 Sutton 等文本中只是一个次要细节。巴托。