不应该在未来某个遥远的时间计算预期回报t + nt+n而不是当前时间吨t?

人工智能 强化学习 奖励 期待 返回
2021-11-11 22:06:58

我是第一次学习 RL。这可能很天真,但如果 R​​L 的目标是最大化预期回报,那么不应该在未来某个遥远的时间计算预期回报(t+n) 而不是当前时间t? 这是因为我们正在使用当前信息为未来构建我们的系统。(我来自机器学习背景,这对我来说更有意义)。

一般来说,预期回报是:

E[Gt]=E[Rt+1+Rt+2+Rt+3+...Rt+n]

但是,预期回报不应该是:

E[Gt+n]=E[Rt+1+Rt+2+Rt+3+...Rt+n1]

1个回答

不应该计算未来某个遥远时间的预期回报(𝑡+𝑛)而不是当前时间t?

这部分是一个符号问题,但是Gt正如您问题中的第一个(也是正确的)方程式所看到的那样,已经是未来的奖励总和。您实际上并不知道任何个人回报的价值gt* 直到之后t+n. 但是,您可以预测期望值E[Gt]只要环境和政策保持一致。

您的第二个方程式与第一个方程式非常相似,这就是为什么我说它部分是符号问题。但是,计算回报的前瞻性预期的重点是允许及时评估t. 这是为了在知道系统处于状态的情况下预测未来奖励的可能结果st,或者在控制场景中选择一个动作一个.

此外,在预测和控制场景中,过去(从时间步0-1) 已经发生了。衡量一个系统在收集奖励方面做得如何,回顾过去,可能是有用的指标,例如“这个代理有多好?”。但是,它们通常不是未来的指南。在许多稀疏的环境中(例如棋盘游戏得分+1 获胜),这些数据对于预测未来基本上是无用的,而您想知道的所有内容都由当前状态和执行策略来概括。

无论您何时最终计算收益,开始时间步长(计算收益的轨迹部分)都是一个关键参数。结束时间步是实现的一个实际关注点,但出于理论上的目的,通常可以认为是无穷大(即我们对测量或优化所有未来的奖励感兴趣)。因此,如果您只打算在符号中显示/使用一个参数,则开始时间是要使用的。

有符号的变体,以显示如何计算回报,其中计算范围是明确的,例如G+n对于截断的回报或G+1在计算一步时间差目标时。我所看到的所有这些仍然保持定义与当前时间步相关的值的前向视图,出于与上述相同的原因 - 它在时间步长该值作为预测最受关注。

在训练期间的练习中,你经常等到+n在你知道正确的值之前G* 应用为训练值 - 然后用于更新价值估计v^(s)或者q^(s,一个). 可以使用资格跟踪等技术在该结束时间步之前进行部分更新


* 使用大写符号G对于随机变量和小写G为测量值。