数据挖掘 - 在 RL 的背景下，“预期回报”和“预期回报”有什么区别？ - 吾爱随笔录

数据挖掘强化学习术语

2021-10-03 07:23:00

一个国家的价值 $s$ 在一定的政策下 $\pi$ , $V^\pi(s)$ ，被定义为从状态开始的“预期回报” $s$ . 更准确地说，它被定义为

V^{π} (s) = E (R_{t} ∣ s_{t} = s)

$V^\pi(s) = \mathbb{E}\left(R_t \mid s_t = s \right)$

在哪里 $R_t$ 可以定义为

\sum_{k = 0}^{\infty} γ^{k} r_{t + k + 1}

$\sum_{k=0}^\infty \gamma^k r_{t+k+1}$

这是一段时间后“折扣”奖励的总和 $t$ ，即从时间开始 $t+1$ .

$V^\pi(s)$ 也可以更准确地解释为预期的累积未来折扣奖励。该表示包含所有涉及上述公式特定部分的词，其中

同时，我也听说过“预期回报”这个词，但我不确定它是否指的是同一个概念，即“预期回报”和“预期回报”是不是同一个东西。

我知道还有“下一次奖励的期望值”的概念，通常表示为 $\mathcal{R}^a_{ss'}$ , 并定义为

R_{s s^{'}}^{a} = E (r_{t + 1} ∣ s_{t} = s, a_{t} = a, s_{t + 1} = s^{'})

$\mathcal{R}^a_{ss'} = \mathbb{E}\left(r_{t+1} \mid s_t = s, a_t = a, s_{t+1} = s' \right)$

这也是我们在下一个时间步（即时间步）对奖励的期望值 $t+1$ ，鉴于该动作 $a$ 从状态 $s$ 带我们陈述 $s'$ .

“预期的回报”实际上是 $\mathcal{R}^a_{ss'}$ 代替 $V^\pi(s)$ ?

1个回答

“预期的回报”实际上是 $\mathcal{R}^a_{ss'}$ 代替 $V^\pi(s)$ ?

简而言之，是的。

虽然有一些相关的上下文 - $\mathcal{R}^a_{ss'}$ 是在特定动作和状态转换的上下文中。你还会发现 $\mathcal{R}^a_{s}$ 仅用于给定当前状态和动作的预期奖励（效果很好，但在贝尔曼方程中移动了一些项）。

“返回”也可以称为“效用”。

RL 受到命名差异的影响，但奖励的含义不是其中之一。

符号差异也比比皆是，在 Sutton & Barto强化学习：简介（第 2 版）中，您会发现：

$R_t$ 是当时收到的奖励的占位符 $t$ ，一个随机变量。
$G_t$ 是时间后收到的退货的占位符 $t$ , 你可以将值方程表示为 $v_{\pi}(s) = \mathbb{E}[G_t|S_t=s] = \mathbb{E}[\sum_{k=0}^{\infty}\gamma^kR_{t+k+1}|S_t=s]$
$r$ 是一个特定的奖励值
您不会在书中的方程式中直接看到“预期奖励”，因为修订后的书中的符号依赖于对奖励值分布的求和。

在某些 RL 上下文中，例如使用函数逼近控制连续问题，使用最大化平均奖励比最大化预期回报更方便。但这与“预期奖励”并不完全相同，因为上下文不同（平均奖励包括在遵循策略时对预期状态分布进行平均）

其它你可能感兴趣的问题