人工智能 - 给定特定的奖励，我如何计算每个时间步的回报？ - 吾爱随笔录

人工智能强化学习奖励返回

2021-11-07 22:56:49

让我们使用来自 Barto 的 Sutton 的 Excercise 3.8 - Introduction to RL：

认为 $\gamma = 0.5$ 并收到以下奖励序列 $R_1=-1$ , $R_2=2$ , $R_3=6$ , $R_4=3$ , $R_5=2$ ，和 $T=5$ . 什么是 $G_0, G_1, ..., G_5?$

没有 $G_5$ 因为 $R_5$ 是最后的奖励。我理解对了吗？

所以：

$G_4 = 2$

$G_3 = 3 + 0.5*2 = 4$

$G_2 = 6+0.5*4 = 8$

$G_1 = 2+0.5*8 = 6$

$G_0 = -1 +0.5*6 = 2$

1个回答

完美的。

支持你的直觉，认为没有 $G_5$ ，请参考周期性情况下贴现收益的定义（3.11）。

G_{t} ≐ \sum_{k = t + 1}^{T} γ^{k - t - 1} R_{k}

$G_t \doteq \sum_{k=t+1}^T \gamma^{k-t-1} R_k$

你会看到的 $G_5$ 将被写成一个没有任何项的总和，因为 $T=5$ .

其它你可能感兴趣的问题