是否有处理缺失奖励信号的数学形式?

人工智能 强化学习 参考请求 马尔可夫决策过程 奖励函数 pomdp
2021-11-03 05:47:15

通常,强化学习学习问题被形式化为为马尔可夫决策过程 (MDP) 寻找最优策略。然而,在许多现实生活中,代理只能从环境中获取部分信息。例如,Partially Observable MDP用于对代理没有完全观察状态的情况进行建模。

我想知道对于代理没有完全观察到奖励信号的情况是否有任何公认的形式主义。

特别是,我正在考虑每个状态-动作对的情况(s,a)代理收到奖励R(s,a)有概率1ε并且没有收到任何有可能的东西ε. 当然,原则上,这个设置可以被认为是一个带有随机奖励的常规 MDP,但在这里我希望代理能够以最佳方式表现R.

如果您能向我指出一些相关的文献,我将不胜感激!

1个回答

您的设置(随机丢弃奖励信号)通过将所有内容乘以一个公因子来影响预期的未来奖励(1ϵ).

由于强化学习 (RL) 控制基于最大化预期的未来奖励,并且乘以一个正常数不会影响动作值的排名,因此所有现有的 RL 方法都可以很好地应对而无需修改。他们将在训练的限制下表现最佳 - 当然有所有常见的警告 - 尽管由于增加的方差而学习会变慢,并且价值估计会降低。

如果允许代理观察到缺少奖励信号(而不是观察到的零奖励),那么它可以额外估计ϵ,并修正其学习值函数。我建议在训练结束时将其作为单独的函数处理,而不是修改(s,一个)培训期间。这是因为初步估计ε可能不准确并使学习速度更慢(至少对于 TD 学习,因为自举值不太准确)。

任何修正后的价值函数是否有意义将取决于“不观察”奖励的含义,以及奖励在环境和代理目标方面代表什么。您可能不需要知道您是否只关心代理是否表现最佳。

设置变得更加复杂,如果ε是一个函数一个,s或两者兼而有之,并且解决方案将根据此功能是已知的还是未知的而有所不同。