当过渡模型是确定性的时,奖励可以是随机的吗?

人工智能 强化学习 马尔可夫决策过程 奖励设计 奖励函数
2021-11-03 10:25:36

假设我们有一个确定性环境,其中知道s,a决定s. 是否有可能获得两种不同的奖励rr在某些州sfixed? 假使,假设sfixed是我采取行动后的固定状态a. 请注意,在多次迭代中,我们可能会遇到以下情况:

(s,a)(s1,r1)(s,a)(sfixed,r1)(s,a)(sfixed,r2)(s,a)(s3,r3)

我的问题是,会r1=r2?

1个回答

我的问题是,会r1=r2?

这通常取决于您作为系统的设计者。

通常,当您声明您拥有“确定性环境”时,您暗示两者sr是固定值,取决于(s,a). 所以在你的例子中,你会期望你的观察也有r1=r2

但是,可以定义一个 MDP,其中转换到状态s是确定性的,但是r不是。例如,您可以将游戏中的奖励定义为掷出的骰子数的总和,更好的奖励(平均而言)会产生更多的骰子。这仍然是一个有效的 MDP,可以使用 RL 技术解决。

这方面的一个真实示例可能是管理工作队列,您希望最大限度地减少交货时间,但不确定每个任务需要多长时间。您的状态进展是确定性的——您有一个待处理任务、当前任务和工作人员的队列,并且将任务分配给工作人员是完全确定的。但是,在任务完成之前,您不知道任务执行的效率如何,因此您无法完全了解分配的奖励(您是否可以将其视为随机状态或隐藏状态是一个更复杂的问题 - 它是通常将这些未知数据视为随机数据是务实的)。