通常,强化学习学习问题被形式化为为马尔可夫决策过程 (MDP) 寻找最优策略。然而,在许多现实生活中,代理只能从环境中获取部分信息。例如,Partially Observable MDP用于对代理没有完全观察状态的情况进行建模。
我想知道对于代理没有完全观察到奖励信号的情况是否有任何公认的形式主义。
特别是,我正在考虑每个状态-动作对的情况代理收到奖励有概率并且没有收到任何有可能的东西. 当然,原则上,这个设置可以被认为是一个带有随机奖励的常规 MDP,但在这里我希望代理能够以最佳方式表现.
如果您能向我指出一些相关的文献,我将不胜感激!