假设我们使用称为“S”的状态-动作对和奖励函数 R(),如下所示:
R(S1) <- 0
R(S2) <- 0
...
R(Sn) <- 1
so that
E(R(S)) << 1, i.e., non-zero rewards are very sparse
在这种情况下,RL 智能体面临的任务是尽可能多地积累 1 以最大化
sum(gamma^i * Ri), i ->> infinity
现在考虑一个人引入的即时奖励,以使代理表现得更好:
R(S1) <- 0
R(S2) <- -1
R(S3) <- -10
R(S4) <- 0.1
...
R(Sn) <- 1
so that
E(R(S)) ->> -10, i.e., a simple average of random rewards is strongly negative.
是不是为了最大化折扣奖励的总和,代理可能会选择避免具有强烈负奖励的状态,即使在某些延迟状态下没有获得正奖励的代价?
这是否真的是模型的非线性问题,该模型在不同水平的负/正即时奖励中近似代理的行为(比如说,从 -1 到 1,VS. 从 -100 到 100)可能会分散代理的注意力在最优策略下必须最大化的延迟奖励有利于最大化即时奖励,即使 gamma -> 1?