在 RL 的背景下,“预期回报”和“预期回报”有什么区别?

数据挖掘 强化学习 术语
2021-10-03 07:23:00

一个国家的价值s在一定的政策下π,Vπ(s),被定义为从状态开始的“预期回报”s. 更准确地说,它被定义为

Vπ(s)=E(Rtst=s)

在哪里Rt可以定义为

k=0γkrt+k+1

这是一段时间后“折扣”奖励的总和t,即从时间开始t+1.

Vπ(s)也可以更准确地解释为预期的累积未来折扣奖励该表示包含所有涉及上述公式特定部分的词,其中

  1. “预期”是指“预期值”
  2. “累积”是指总和
  3. “未来”是指未来数量相对于当前数量的期望值,即st=s.
  4. “Discounted”指的是“gamma”因子,它是一种调整我们在未来时间步骤中重视奖励的重要性的方法,即从t+1.
  5. “奖励”是指感兴趣的主要数量,即从环境中获得的奖励。

同时,我也听说过“预期回报”这个词,但我不确定它是否指的是同一个概念,即“预期回报”和“预期回报”是不是同一个东西。

我知道还有“下一次奖励的期望值”的概念,通常表示为 Rssa, 并定义为

Rssa=E(rt+1st=s,at=a,st+1=s)

这也是我们在下一个时间步(即时间步)对奖励的期望值 t+1,鉴于该动作 a 从状态 s 带我们陈述 s.

“预期的回报”实际上是 Rssa 代替 Vπ(s)?

1个回答

“预期的回报”实际上是 Rssa 代替 Vπ(s)?

简而言之,是的。

虽然有一些相关的上下文 - Rssa是在特定动作和状态转换的上下文中。你还会发现Rsa 仅用于给定当前状态和动作的预期奖励(效果很好,但在贝尔曼方程中移动了一些项)。

“返回”也可以称为“效用”。

RL 受到命名差异的影响,但奖励的含义不是其中之一。

符号差异也比比皆是,在 Sutton & Barto强化学习:简介(第 2 版)中,您会发现:

  • Rt 是当时收到的奖励的占位符 t,一个随机变量。

  • Gt 是时间后收到的退货的占位符 t, 你可以将值方程表示为 vπ(s)=E[Gt|St=s]=E[k=0γkRt+k+1|St=s]

  • r 是一个特定的奖励值

  • 您不会在书中的方程式中直接看到“预期奖励”,因为修订后的书中的符号依赖于对奖励值分布的求和。

在某些 RL 上下文中,例如使用函数逼近控制连续问题,使用最大化平均奖励比最大化预期回报更方便。但这与“预期奖励”并不完全相同,因为上下文不同(平均奖励包括在遵循策略时对预期状态分布进行平均)