为什么将回报定义为时间回报的总和是有用的向前而不是达到?
MDP 的回报通常定义为
为什么这被定义为回报?这有什么用处吗?
似乎将回报定义为更有用因为你的“回报”可以说是“投资利润”,所以看起来你的回报将是你采取行动到那时所积累的回报。
为什么将回报定义为时间回报的总和是有用的向前而不是达到?
MDP 的回报通常定义为
为什么这被定义为回报?这有什么用处吗?
似乎将回报定义为更有用因为你的“回报”可以说是“投资利润”,所以看起来你的回报将是你采取行动到那时所积累的回报。
从时间 0 到按照您的建议定义回报是没有意义的. 一旦我们处于某个状态我们不关心回报是什么,而是他们将来会是什么,因此回报被定义为从当前时间步开始的折扣奖励的总和。这允许代理根据在当前状态下采取行动的价值来决定采取哪些行动——显然之前的奖励对此没有影响。