在 Sutton 和 Barto 的RL 书的第 10.4 节中,他们认为贴现率对继续设置没有影响。他们表明(至少对于一个目标函数)贴现回报的平均值与未贴现的平均回报成正比在给定的政策下。然后,他们提倡使用平均奖励而不是折扣设置的通常回报。
不过,我从来没有遇到过在野外使用平均奖励(并且没有折扣)的人。我只是对某些用例一无所知,还是几乎每个人都坚持打折?
是遵循策略时的稳态分布.
他们的证明确实使用了 MDP 是遍历的这一事实。我不确定这种假设在实践中多久成立一次。
在 Sutton 和 Barto 的RL 书的第 10.4 节中,他们认为贴现率对继续设置没有影响。他们表明(至少对于一个目标函数)贴现回报的平均值与未贴现的平均回报成正比在给定的政策下。然后,他们提倡使用平均奖励而不是折扣设置的通常回报。
不过,我从来没有遇到过在野外使用平均奖励(并且没有折扣)的人。我只是对某些用例一无所知,还是几乎每个人都坚持打折?
是遵循策略时的稳态分布.
他们的证明确实使用了 MDP 是遍历的这一事实。我不确定这种假设在实践中多久成立一次。