假设我们有一个确定性环境,其中知道决定. 是否有可能获得两种不同的奖励在某些州? 假使,假设是我采取行动后的固定状态. 请注意,在多次迭代中,我们可能会遇到以下情况:
我的问题是,会?
假设我们有一个确定性环境,其中知道决定. 是否有可能获得两种不同的奖励在某些州? 假使,假设是我采取行动后的固定状态. 请注意,在多次迭代中,我们可能会遇到以下情况:
我的问题是,会?
我的问题是,会?
这通常取决于您作为系统的设计者。
通常,当您声明您拥有“确定性环境”时,您暗示两者和是固定值,取决于. 所以在你的例子中,你会期望你的观察也有
但是,可以定义一个 MDP,其中转换到状态是确定性的,但是不是。例如,您可以将游戏中的奖励定义为掷出的骰子数的总和,更好的奖励(平均而言)会产生更多的骰子。这仍然是一个有效的 MDP,可以使用 RL 技术解决。
这方面的一个真实示例可能是管理工作队列,您希望最大限度地减少交货时间,但不确定每个任务需要多长时间。您的状态进展是确定性的——您有一个待处理任务、当前任务和工作人员的队列,并且将任务分配给工作人员是完全确定的。但是,在任务完成之前,您不知道任务执行的效率如何,因此您无法完全了解分配的奖励(您是否可以将其视为随机状态或隐藏状态是一个更复杂的问题 - 它是通常将这些未知数据视为随机数据是务实的)。