平均奖励强化学习

数据挖掘 强化学习
2022-02-21 20:59:09

什么是平均奖励强化学习的贝尔曼方程更新规则?我搜索了几篇文章,但找不到任何实用的答案。

1个回答

一般来说,平均奖励设置取代了连续任务中的折扣设置。它依赖于在任何特定策略下存在长期稳定的状态分布(这称为遍历性) - 这对于没有吸收状态的连续 MDP 通常是正确的。

如果您在折扣设置中看到如下所示的更新规则(用于 Q 学习):

Q(s,a)Q(s,a)+α(r+γmaxaQ(s,a)Q(s,a))

然后用差分TD 误差替换贴现 TD误差:

Q(s,a)Q(s,a)+α(rr¯+maxaQ(s,a)Q(s,a))

其中是当前策略下每个时间步的平均奖励。你可以简单地从目前看到的回报来估计这一点。r¯

我搜索了几篇文章,但找不到任何实用的答案。

请参阅强化学习:简介(第二版)第 10 章,第 3 节和第 4 节以获取更全面的描述和更多示例。