半马尔可夫决策过程中奖励率与抽样奖励的关系

人工智能 强化学习 q学习 马尔可夫决策过程 半mdp
2021-11-05 00:32:28

在论文:连续时间马尔可夫决策问题的强化学习方法中,作者为 Q 学习算法提供了以下更新规则,适用于半马尔可夫决策过程 (SMDP):

Q(k+1)(x,a)=Q(k)(x,a)+αk[1eβτβr(x,y,a)+eβτmaxaQ(k)(y,a)Q(k)(x,a)]

在哪里αk是学习率,β是连续时间贴现因子和τ是从状态转换所需的时间x陈述y.

我不清楚采样奖励之间的关系是什么r(x,y,a)和奖励率ρ(x,a)在目标函数中指定E[0eβtρ(x(t),a(t))dt].

特别是,他们如何确定r(x,y,a)在第 6 节的实验中?在这个实验中,他们考虑了一个 M/M/2 排队系统中的路由问题,其中奖励率为: c1n1(t)+c2n2(t).c1c2是标量成本因子和n1(t)n2(t)分别是队列 1 和 2 中的顾客数量。

0个回答
没有发现任何回复~