什么是平均奖励强化学习的贝尔曼方程更新规则?我搜索了几篇文章,但找不到任何实用的答案。
平均奖励强化学习
数据挖掘
强化学习
2022-02-21 20:59:09
1个回答
一般来说,平均奖励设置取代了连续任务中的折扣设置。它依赖于在任何特定策略下存在长期稳定的状态分布(这称为遍历性) - 这对于没有吸收状态的连续 MDP 通常是正确的。
如果您在折扣设置中看到如下所示的更新规则(用于 Q 学习):
然后用差分TD 误差替换贴现 TD误差:
其中是当前策略下每个时间步的平均奖励。你可以简单地从目前看到的回报来估计这一点。
我搜索了几篇文章,但找不到任何实用的答案。
请参阅强化学习:简介(第二版)第 10 章,第 3 节和第 4 节以获取更全面的描述和更多示例。
其它你可能感兴趣的问题