人工智能 - 半马尔可夫决策过程中奖励率与抽样奖励的关系 - 吾爱随笔录

在论文：连续时间马尔可夫决策问题的强化学习方法中，作者为 Q 学习算法提供了以下更新规则，适用于半马尔可夫决策过程 (SMDP)：

$Q^{(k+1)}(x,a) = Q^{(k)}(x,a) + \alpha_k [ \frac{1-e^{-\beta \tau}}{\beta}r(x,y,a) + e^{-\beta \tau} max_{a'} Q^{(k)}(y,a) - Q^{(k)}(x,a) ]$

在哪里 $\alpha_k$ 是学习率， $\beta$ 是连续时间贴现因子和 $\tau$ 是从状态转换所需的时间 $x$ 陈述 $y$ .

我不清楚采样奖励之间的关系是什么 $r(x,y,a)$ 和奖励率 $\rho(x,a)$ 在目标函数中指定 $\mathbb{E}[ \int_{0}^{\infty} e^{-\beta t}\rho(x(t),a(t)) dt ]$ .

特别是，他们如何确定 $r(x,y,a)$ 在第 6 节的实验中？在这个实验中，他们考虑了一个 M/M/2 排队系统中的路由问题，其中奖励率为： $c_1 n_1(t) + c_2 n_2(t)$ . $c_1$ 和 $c_2$ 是标量成本因子和 $n_1(t)$ 和 $n_2(t)$ 分别是队列 1 和 2 中的顾客数量。