每个人都还在使用折扣率吗?

人工智能 强化学习 折扣因子 马尔可夫决策过程
2021-11-04 01:41:13

在 Sutton 和 Barto 的RL 书的第 10.4 节中,他们认为贴现率γ对继续设置没有影响。他们表明(至少对于一个目标函数)贴现回报的平均值与未贴现的平均回报成正比r(π)在给定的政策下。然后,他们提倡使用平均奖励而不是折扣设置的通常回报。

不过,我从来没有遇到过在野外使用平均奖励(并且没有折扣)的人。我只是对某些用例一无所知,还是几乎每个人都坚持打折?

r(π)=sμπ(s)aπ(a|s)s,rp(s,r|s,a)r

μπ是遵循策略时的稳态分布π.

他们的证明确实使用了 MDP 是遍历的这一事实。我不确定这种假设在实践中多久成立一次。

0个回答
没有发现任何回复~