我想对 SMDP 进行建模,以使时间离散化,并且两个状态之间的转换时间遵循指数分布,并且转换之间不会有任何奖励。
我能知道它们之间有什么区别吗和针对这个问题的 Q 学习 (SMDP)?我实际上想将这里介绍的伪代码扩展到具有时间范围离散化的 SMDP 问题。
我想对 SMDP 进行建模,以使时间离散化,并且两个状态之间的转换时间遵循指数分布,并且转换之间不会有任何奖励。
我能知道它们之间有什么区别吗和针对这个问题的 Q 学习 (SMDP)?我实际上想将这里介绍的伪代码扩展到具有时间范围离散化的 SMDP 问题。
如果你真的只是想要一个算法的 SMDP 版本,它只需要能够在宏动作的“高级”时间尺度上运行,你可以相对安全地获取任何基于 MDP 的算法的原始伪代码。比如,用“macro-action”替换每次出现的“action”,你就完成了。
我能想到的唯一警告是是“最佳”值可能与到期的时间量有些相关......所以直观地说,我希望它的值是最好的随着最后一个宏动作执行期间过期时间的增加而减少。一个常数可能仍然可以正常工作。
如果您实际上希望您的算法也了解 SMDP 底层的较低时间尺度 MDP,并且不仅将宏操作视为“大操作”并完成它......我建议您查看选项框架. 在那里你会得到一些有趣的想法,比如选项内更新,这可以让你在更大的宏观动作(或选项)仍在进行中的同时进行学习。
上次我查看时没有很多工作涉及资格跟踪和选项的组合,但有一些工作:Eligibility Traces for Options。本文并未专门应用您提到的算法(),但它确实讨论了一堆其他的——更新的,可能更好的——带有资格跟踪的非策略算法。