人工智能 - 理解预期奖励定义中的符号 - 吾爱随笔录

理解预期奖励定义中的符号

人工智能强化学习萨顿巴托符号

2021-10-22 08:26:22

我是 RL 的新手，我正在尝试阅读《强化学习：介绍 I》（Sutton 和 Barto，2018 年）一书。在关于有限马尔可夫决策过程的第 3 章中，作者将预期奖励写为

r (s, a) = E [R_{t} | S_{t - 1} = s, A_{t - 1} = a] = \sum_{r \in R} r \sum_{s^{'} \in S} p (s^{'}, r | s, a)

$r(s,a) = \mathbb{E}\left[R_t|S_{t-1}=s,A_{t-1}=a\right]=\sum_{r\in \mathcal{R}}r\sum_{s'\in \mathcal{S}}p(s',r|s,a)$

我不确定作者的意思是

r (s, a) = E [R_{t} | S_{t - 1} = s, A_{t - 1} = a] = \sum_{r \in R} [r \sum_{s^{'} \in S} p (s^{'}, r | s, a)]

$r(s,a) = \mathbb{E}\left[R_t|S_{t-1}=s,A_{t-1}=a\right]=\sum_{r\in \mathcal{R}}\left[r\sum_{s'\in \mathcal{S}}p(s',r|s,a)\right]$

或者

r (s, a) = E [R_{t} | S_{t - 1} = s, A_{t - 1} = a] = [\sum_{r \in R} r] \cdot [\sum_{s^{'} \in S} p (s^{'}, r | s, a)] .

$r(s,a) = \mathbb{E}\left[R_t|S_{t-1}=s,A_{t-1}=a\right]=\left[\sum_{r\in \mathcal{R}}r\right]\cdot\left[\sum_{s'\in \mathcal{S}}p(s',r|s,a)\right].$

如果作者的意思是第一个，有什么理由不写成下面这样吗？

r (s, a) = E [R_{t} | S_{t - 1} = s, A_{t - 1} = a] = \sum_{r \in R} \sum_{s^{'} \in S} [r p (s^{'}, r | s, a)]

$r(s,a) = \mathbb{E}\left[R_t|S_{t-1}=s,A_{t-1}=a\right]=\sum_{r\in \mathcal{R}}\sum_{s'\in \mathcal{S}}\left[r\,p(s',r|s,a)\right]$

1个回答

您的第一个选项是正确的：

r (s, a) = E [R_{t} | S_{t - 1} = s, A_{t - 1} = a] = \sum_{r \in R} [r \sum_{s^{'} \in S} p (s^{'}, r | s, a)]

$r(s,a) = \mathbb{E}\left[R_t|S_{t-1}=s,A_{t-1}=a\right]=\sum_{r\in \mathcal{R}}\left[r\sum_{s'\in \mathcal{S}}p(s',r|s,a)\right]$

这部分是口味问题，但我更喜欢不移动 $r$ 进入双重和，因为它的值在“内循环”中不会改变。这种方式有少量的直觉，尤其是在实现方面（它是求和后的一个乘法，而不是总和中的许多）。

Sutton & Barto 中有很多包含 sum 的 sum，它们主要遵循不使用任何括号或括号来明确显示一个 sum 包含另一个 sum 的约定。

在这种情况下，这些公式有助于链接到 RL 的其他处理，这些处理与预期的奖励函数一起工作 $r(s,a)$ 或者 $r(s,a,s')$ ，或奖励矩阵 $R_s^a$ , $R_{ss'}^a$ 例如萨顿和巴托的书的第一版。本书第二版使用 $p(s', r|s, a)$ 几乎无处不在，你不会看到 $r(s,a)$ 再次提到很多。因此，不必过分关注它是如何呈现的，以及作者可能会在演示中说什么。

通常你不需要知道奖励的分配，只需要知道它的期望（以及这取决于 $s, a, s'$ )，以便推导和解释 RL 中的大部分结果。所以使用 $r(s,a)$ 在贝尔曼方程等地方，类似的函数也很好。然而，使用 $p(s', r|s, a)$ 是通用的，不需要引入更多描述 MDP 的函数。

其它你可能感兴趣的问题

上一篇有没有比计算获胜机会更好的方法μ ∗ ( 1 - ( σ* f) ) * 100μ∗(1−(σ∗f))∗100对于纸牌游戏 schnapsen？下一篇使用前馈网络学习任意函数