让我们使用来自 Barto 的 Sutton 的 Excercise 3.8 - Introduction to RL:
认为并收到以下奖励序列 ,,,,, 和. 什么是
没有因为是最后的奖励。我理解对了吗?
所以:
让我们使用来自 Barto 的 Sutton 的 Excercise 3.8 - Introduction to RL:
认为并收到以下奖励序列 ,,,,, 和. 什么是
没有因为是最后的奖励。我理解对了吗?
所以:
完美的。
支持你的直觉,认为没有,请参考周期性情况下贴现收益的定义(3.11)。
你会看到的将被写成一个没有任何项的总和,因为.