我正在尝试通过学习作为多臂老虎机来模拟顺序探索-利用问题,其中奖励混合了马尔可夫和随机奖励。
我了解如何使用马尔可夫奖励来模拟强盗问题。在马尔可夫老虎机问题中,每次决策者(DM)拉动手臂时,手臂的状态都会根据马尔可夫链发生变化,并获得与转换相关的奖励。解决此类问题的一种方法是 Gittins 索引。
另一方面,我也知道用随机奖励解决老虎机问题的不同方法。在随机奖励老虎机问题中,每次 DM 拉动手臂时,它都会从已知分布中获得奖励,该分布的参数未知,并且 DM 尝试学习。有多种索引策略和推理模型可供应用(UCB、知识梯度等)。
但是,如果奖励混合了这两个概念呢?也就是说,每次 DM 拉动手臂时,它都会获得一个奖励,该奖励具有一个取决于状态转换的因素,但同时,奖励的其他因素来自一个已知分布(具有未知参数),马尔可夫链的所有状态都通用吗?
澄清一下:奖励类似于 A_st*X,其中“A_st”取决于状态(为了使事情更容易,我们可以认为它是给定状态的确定性),而“X”~N(mu, sigma) ,所有国家通用?
我能想出的唯一模型将依赖于将我对“X”的信念整合到状态空间中,然后尝试通过某种 ADP 计算 Gittins 索引(这可能是不可能的)。
奖金回合:是否有可能更进一步并将其制定为超级过程?(而不是马尔可夫链,有一个 MDP?)。
编辑 tl;博士:
你如何处理奖励不是典型共轭分布形式的多臂老虎机问题(如指数伽马学习模型)?