人工智能 - 每个人都还在使用折扣率吗？ - 吾爱随笔录

在 Sutton 和 Barto 的RL 书的第 10.4 节中，他们认为贴现率 $\gamma$ 对继续设置没有影响。他们表明（至少对于一个目标函数）贴现回报的平均值与未贴现的平均回报成正比 $r(\pi)$ 在给定的政策下。 $^*$ 然后，他们提倡使用平均奖励而不是折扣设置的通常回报。

不过，我从来没有遇到过在野外使用平均奖励（并且没有折扣）的人。我只是对某些用例一无所知，还是几乎每个人都坚持打折？

r (π) = \sum_{s} μ_{π} (s) \sum_{a} π (a | s) \sum_{s^{'}, r} p (s^{'}, r | s, a) r

$r(\pi)=\sum_s \mu_\pi (s) \sum_a \pi(a|s) \sum_{s',r}p(s',r|s,a)r$

$\mu_\pi$ 是遵循策略时的稳态分布 $\pi$ .

$^*$ 他们的证明确实使用了 MDP 是遍历的这一事实。我不确定这种假设在实践中多久成立一次。