在强化学习中,代理可以对正确的行为获得积极的奖励,对错误的行为获得消极的奖励,但是代理是否也会因为其他每一步/行为而获得奖励?
是在每一步都给予奖励,还是仅在 RL 代理失败或成功时给予?
人工智能
强化学习
奖励设计
奖励函数
奖励塑造
密集奖励
2021-10-31 19:21:54
1个回答
在强化学习 (RL) 中,必须在每个动作之后立即返回奖励值以及下一个状态。但是,该值可以为零,这对最优性或设定目标没有直接影响。
除非您正在修改奖励计划以尝试使环境更易于学习(称为奖励塑造),否则您应该以“自然”奖励计划为目标。这意味着直接根据代理的目标授予奖励。
常见的奖励计划可能包括:
+1 仅在一集结束时赢得游戏或达到目标状态,而所有其他步骤的奖励为零。您可能还会看到 0 表示平局,-1 表示输掉一场比赛。
每个时间步 -1,当目标是在最短时间步内解决问题时。
与代理人生产的东西的数量成比例的奖励 - 例如能源,金钱,化学产品,在获得该产品的任何站点授予,否则为零。基于代理为生产产品而消耗的其他东西(例如燃料)的潜在负面奖励。
其它你可能感兴趣的问题