数据挖掘 - 平均奖励强化学习 - 吾爱随笔录

数据挖掘强化学习

2022-02-21 20:59:09

什么是平均奖励强化学习的贝尔曼方程更新规则？我搜索了几篇文章，但找不到任何实用的答案。

1个回答

一般来说，平均奖励设置取代了连续任务中的折扣设置。它依赖于在任何特定策略下存在长期稳定的状态分布（这称为遍历性） - 这对于没有吸收状态的连续 MDP 通常是正确的。

如果您在折扣设置中看到如下所示的更新规则（用于 Q 学习）：

Q (s, a) \leftarrow Q (s, a) + α (r + γ {max}_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(r + \gamma\text{max}_{a'}Q(s',a') - Q(s,a))$

然后用差分TD 误差替换贴现 TD误差：

Q (s, a) \leftarrow Q (s, a) + α (r - \bar{r} + {max}_{a^{'}} Q (s^{'}, a^{'}) - Q (s, a))

$Q(s,a) \leftarrow Q(s,a) + \alpha(r -\bar{r} + \text{max}_{a'}Q(s',a') - Q(s,a))$

其中是当前策略下每个时间步的平均奖励。你可以简单地从目前看到的回报来估计这一点。 $\bar{r}$

我搜索了几篇文章，但找不到任何实用的答案。

请参阅强化学习：简介（第二版）第 10 章，第 3 节和第 4 节以获取更全面的描述和更多示例。

其它你可能感兴趣的问题