我目前正在阅读关于强化学习的伯克利讲座。具体来说,我在本讲座的幻灯片 5。
在该幻灯片的底部,预期奖励总和函数的梯度由下式给出
∇ _( θ ) =1ñ∑我= 1ñ∑t = 1吨∇θ日志πθ(一种我, t|s我, t) (问(s我, t,一种我, t) - V(s我, t) )
q值函数定义为
问(s吨,一种吨) =∑吨'= t吨乙πθ[ r (s吨',一种吨') |s吨,一种吨]
乍一看,这是有道理的,因为我比较了采取所选行动的价值一种我, t到时间步的平均值吨并且可以评估我的行为有多好。
我的问题是:一个特定的状态s规格_ _ _可以发生在任何时间步长,例如,s1=s规格_ _ _=s10. 但是是否根据我是否击中而存在价值差异s规格_ _ _在时间步 1 或 10 时吨是固定的吗?这是否意味着对于每个可能的状态都有不同的 q 值t ∈ { 0 , ... , T}? 我不知何故怀疑是这种情况,但我不太明白时间范围吨适合。
或者是吨不固定(也许它被定义为轨迹结束于终端状态的时间步长 - 但这意味着在轨迹采样期间,每个模拟将采用不同数量的时间步长)?