政策梯度中的时间范围 T (actor-critic)

数据挖掘 机器学习 深度学习 强化学习 政策梯度 演员评论家
2022-03-08 02:07:11

我目前正在阅读关于强化学习的伯克利讲座。具体来说,我在讲座的幻灯片 5。

在该幻灯片的底部,预期奖励总和函数的梯度由下式给出

Ĵ(θ)=1ñ一世=1ñ=1θ日志πθ(一种一世,|s一世,)((s一世,,一种一世,)-(s一世,))
q值函数定义为
(s,一种)='=πθ[r(s',一种')|s,一种]
乍一看,这是有道理的,因为我比较了采取所选行动的价值一种一世,到时间步的平均值并且可以评估我的行为有多好。

我的问题是:一个特定的状态sspeC可以发生在任何时间步长,例如,s1=sspeC=s10. 但是是否根据我是否击中而存在价值差异sspeC在时间步 1 或 10 时是固定的吗?这是否意味着对于每个可能的状态都有不同的 q 值{0,,}? 我不知何故怀疑是这种情况,但我不太明白时间范围适合。

或者是不固定(也许它被定义为轨迹结束于终端状态的时间步长 - 但这意味着在轨迹采样期间,每个模拟将采用不同数量的时间步长)?

1个回答

在这种情况下,我认为您何时到达并不重要sspeC,但是由于在该状态下采取行动而如何更新 q 值。因此,每个可能的 q 值不应该不同{0,...,},只有每个可能动作的 q 值。我确信在特定时间步处于某个状态确实会有所不同,但是通过使用 RL 算法(如讲座中的策略梯度方法)来学习这一点是代理的工作。

关于固定与否,地平线可以是无限的或固定为有限的数。例如,如果固定为10,代理应该学习在有限时间内最大化总折扣奖励的策略,但它可能不是最优策略。什么时候是无限的,有更多的时间去探索和找出最优策略。

我所知道的最接近状态-动作对何时出现的方法是DQN 中使用的体验重放

我现在也在学习强化学习!我推荐Deep RL Bootcamp,因为它们为您提供了非常直观的 Python 实验室。