人工智能 - 为什么强化学习 (RL) 中的预期回报被计算为累积奖励的总和？ - 吾爱随笔录

为什么强化学习 (RL) 中的预期回报被计算为累积奖励的总和？

人工智能强化学习 q学习奖励价值函数返回

2021-11-16 06:43:31

为什么强化学习 (RL) 中的预期回报被计算为累积奖励的总和？

计算不是更有意义吗 $\mathbb{E}(R \mid s, a)$ （采取行动的预期回报 $a$ 在给定的状态 $s$ ) 作为记录的所有奖励的平均值 $s$ 并采取行动 $a$ ?

在许多示例中，我看到一个状态的值计算为预期回报，计算为奖励的累积总和乘以折扣因子：

$V^π(s)$ = $\mathbb{E}(R \mid s)$ （状态 s 的值，如果我们遵循策略 π 等于给定状态 s 的预期回报）

所以， $V^π(s)$ = $\mathbb{E}(r_{t+1}+ γr_{t+2}+ (γ^2)_{t+3} + ... \mid s) = {E}(∑γ^kr_{t+k+1}\mid s)$

作为 $R=r_{t+1}+ γr_{t+2}+ {γ^2}r_{t+3}, + ...$

如下计算状态的值是否更有意义：

$V^π(s)$ = $(r_{t+1} + γr_{t+2} + (γ^2)_{t+3}, + ... \mid s)/k = {E}(∑γ^kr_{t+k+1}\mid s)/k$ 其中 k 是总和中元素的数量，因此给了我们处于状态 s 的平均奖励。

累积和示例的参考：https ://joshgreaves.com/reinforcement-learning/understanding-rl-the-bellman-equations/

1个回答

为什么强化学习 (RL) 中的预期回报被计算为累积奖励的总和？

这就是回报的定义。

事实上，当应用折扣因子时，这应该正式称为折扣回报，而不仅仅是“回报”。通常，相同的符号用于两者 ( $R$ 在你的情况下， $G$ 例如萨顿和巴托）。

还有其他变化，例如截断回报（总和到给定的时间范围）。他们都有一个共同的特点，即回报是奖励价值的总和。您无法真正改变这一点并保留正式术语“return”，这就是它的定义方式。

但是，您可以将价值函数定义为预期回报之外的东西。与其寻找标题所暗示的回报的替代定义，不如寻找替代指标来用作价值函数。

您确实继续询问计算“状态的价值”而没有提及“return”一词，但您是否知道解决此问题的方法不是使用 return，而是使用其他东西，这并不是 100% 清楚。

如下计算状态的值是否更有意义： $V^π(s)$ = $(r_{t+1} + γr_{t+2} + (γ^2)_{t+3}, + ... \mid s)/k = {E}(∑γ^kr_{t+k+1}\mid s)/k$ 其中 k 是总和中元素的数量，因此给了我们处于状态 s 的平均奖励。

对于长期运行或非偶发性问题，您的示例几乎总是会导致零，因为您正在对一个递减的几何级数求和，可能会达到非常大 $k$ ，然后除以最大值 $k$ . 符号方面你也在使用 $k$ 作为一个迭代器和同一个迭代器的最大值，这需要修复。

然而，这非常接近强化学习中使用的真实价值指标，称为平均奖励设置。

非偶发问题的预期平均奖励值函数通常由下式给出

V^{π} (s) = E [lim_{h \to \infty} \frac{1}{h} \sum_{k = 0}^{h} r_{t + k + 1} | s_{t} = s]

$V^\pi(s) = \mathbb{E}[\lim_{h \to \infty}\frac{1}{h}\sum_{k=0}^{h}r_{t+k+1}|s_t = s]$

请注意，没有折扣因子，通常不可能将折扣因子与平均奖励设置结合起来。

Sutton & Barto 在Reinforcement Learning: An Introduction第 10 章第 10.4 节中指出，当在连续任务上使用函数逼近时，折扣因子不是设置的有用部分。相反，平均奖励是一种更自然的方法。修改贝尔曼方程和更新规则也没有那么不同，而且很容易。然而，许多 DQN 实现仍然使用折扣回报来解决持续的任务。那是因为有足够高的折扣系数 $\gamma$ ，例如 $0.99$ 或者 $0.999$ ，那么最终结果很可能是相同的最优解——折扣因子已经从问题公式的一部分变成了解超参数。

其它你可能感兴趣的问题

上一篇什么时候需要偏置正则化和激活正则化？下一篇如何在 RL 中对策略梯度方法进行分类？