给定特定的奖励,我如何计算每个时间步的回报?

人工智能 强化学习 奖励 返回
2021-11-07 22:56:49

让我们使用来自 Barto 的 Sutton 的 Excercise 3.8 - Introduction to RL:

认为γ=0.5并收到以下奖励序列 R1=1,R2=2,R3=6,R4=3,R5=2, 和T=5. 什么是G0,G1,...,G5?

没有G5因为R5是最后的奖励。我理解对了吗?

所以:

G4=2

G3=3+0.52=4

G2=6+0.54=8

G1=2+0.58=6

G0=1+0.56=2

1个回答

完美的。

支持你的直觉,认为没有G5,请参考周期性情况下贴现收益的定义(3.11)。

Gtk=t+1Tγkt1Rk

你会看到的G5将被写成一个没有任何项的总和,因为T=5.