如何申请或延长Q ( λ )Q(λ)半 MDP 算法?

人工智能 强化学习 q学习 半mdp 资格痕迹
2021-11-12 13:39:24

我想对 SMDP 进行建模,以使时间离散化,并且两个状态之间的转换时间遵循指数分布,并且转换之间不会有任何奖励。

我能知道它们之间有什么区别吗Q(λ)和针对这个问题的 Q 学习 (SMDP)?我实际上想将这里介绍的伪代码扩展到具有时间范围离散化的 SMDP 问题。

1个回答

如果你真的只是想要一个算法的 SMDP 版本,它只需要能够在宏动作的“高级”时间尺度上运行,你可以相对安全地获取任何基于 MDP 的算法的原始伪代码。比如,用“macro-action”替换每次出现的“action”,你就完成了。

我能想到的唯一警告是Q(λ)是“最佳”值λ可能与到期的时间量有些相关......所以直观地说,我希望它的值是最好的λ随着最后一个宏动作执行期间过期时间的增加而减少。一个常数λ可能仍然可以正常工作。


如果您实际上希望您的算法也了解 SMDP 底层的较低时间尺度 MDP,并且不仅将宏操作视为“大操作”并完成它......我建议您查看选项框架. 在那里你会得到一些有趣的想法,比如选项内更新,这可以让你在更大的宏观动作(或选项)仍在进行中的同时进行学习。

上次我查看时没有很多工作涉及资格跟踪和选项的组合,但有一些工作:Eligibility Traces for Options本文并未专门应用您提到的算法(Q(λ)),但它确实讨论了一堆其他的——更新的,可能更好的——带有资格跟踪的非策略算法。