在论文:连续时间马尔可夫决策问题的强化学习方法中,作者为 Q 学习算法提供了以下更新规则,适用于半马尔可夫决策过程 (SMDP):
在哪里是学习率,是连续时间贴现因子和是从状态转换所需的时间陈述.
我不清楚采样奖励之间的关系是什么和奖励率在目标函数中指定.
特别是,他们如何确定在第 6 节的实验中?在这个实验中,他们考虑了一个 M/M/2 排队系统中的路由问题,其中奖励率为: .和是标量成本因子和和分别是队列 1 和 2 中的顾客数量。
在论文:连续时间马尔可夫决策问题的强化学习方法中,作者为 Q 学习算法提供了以下更新规则,适用于半马尔可夫决策过程 (SMDP):
在哪里是学习率,是连续时间贴现因子和是从状态转换所需的时间陈述.
我不清楚采样奖励之间的关系是什么和奖励率在目标函数中指定.
特别是,他们如何确定在第 6 节的实验中?在这个实验中,他们考虑了一个 M/M/2 排队系统中的路由问题,其中奖励率为: .和是标量成本因子和和分别是队列 1 和 2 中的顾客数量。