为什么将回报定义为时间回报的总和是有用的吨t向前而不是达到吨t?

人工智能 强化学习 定义 马尔可夫决策过程 返回
2021-10-29 04:21:07

为什么将回报定义为时间回报的总和是有用的t向前而不是达到t?

MDP 的回报通常定义为

Gt=Rt+1+Rt+2++RT

为什么这被定义为回报?这有什么用处吗?

似乎将回报定义为更有用

Gt=R0++Rt,
因为你的“回报”可以说是“投资利润”,所以看起来你的回报将是你采取行动到那时所积累的回报。

1个回答

从时间 0 到按照您的建议定义回报是没有意义的t. 一旦我们处于某个状态t我们不关心回报什么,而是他们将来会是什么,因此回报被定义为从当前时间步开始的折扣奖励的总和。这允许代理根据在当前状态下采取行动的价值来决定采取哪些行动t——显然之前的奖励对此没有影响。