解决马尔可夫决策过程的快速算法

计算科学 优化 统计数据 线性规划
2021-12-10 09:05:19

在我的硕士论文中,我使用了一种称为近似动态规划[1] 的算法来求解以下形式的方程

maxπEπ{t=0TγtCtπ(St,Atπ(St))}.

它使用蒙特卡罗采样和近似V¯t的价值函数来解决维度的诅咒。作为决策函数服务于凸线性程序

v^tn=maxatAtn(Ct(Stn,at)+γV¯t+1n1(SM(Stn,at))),

并且更新是通过使用 stepsize 完成的α

V¯tn(Stn)=(1αn1)V¯tn1(Stn)+αn1v^tn.
我现在想知道他们是否存在类似的算法,尽管该算法有多种风格,可以在合理的时间内提供高质量的解决方案,或者使用的原理是否是解决此类问题的唯一方法?

干杯,礼萨

[1] POWELL, W.:近似动态规划:解决维度灾难。BD。703. 威利-布莱克威尔,2007

0个回答
没有发现任何回复~