深度强化学习问题中的最大累积奖励是否有上限?例如,您想在一个环境中训练一个 DQN 代理,并且您想知道您可以从累积奖励中获得的最高值是多少,因此您可以将其与您的代理性能进行比较。
深度强化学习问题中最大累积奖励的上限
我的回答是:Is there an upper limit to the maximum cumulative reward in a deep reinforcement learning problem?
是的,但取决于环境,如果处理理论环境,其中有无限数量的时间步长。
计算上限
在强化学习(包括深度强化学习)中,我们希望最大化折扣累积奖励,即找到:
在我们找到上面级数的上界之前,我们需要确定上界是否存在,即根据奖励函数等环境规范是否收敛。
我将提供一个系列收敛的示例环境。这是一个具有简单规则并持续无限时间步长的环境。其奖励函数定义如下:
-> A reward of +2 for every favorable action.
-> A reward of 0 for every unfavorable action.
所以,我们通过给我们上限的 MDP 路径是我们只得到 2 的地方。
比方说是一个常数,例如, 注意
现在,我们有一个收敛的几何级数:
====
因此上限为 4。
对于持续时间有限的环境,上限确实存在,但对于某些环境,同样对于无限时间步的环境,计算可能有点困难但不一定不可能,我所说的环境是具有复杂奖励函数和环境的那些,即环境是随机的,或者奖励函数的可能值取决于状态,它们总是如此,但我们可以松散地说,当一个环境的所有可能的奖励值都可以是时,奖励函数是独立于状态的在任何状态下给出,但显然与所采取的行动有关。
让我们假设. 然后对于连续问题,可以通过以下方式获得上限
我们可以对具有折扣回报的情景任务使用相同的界限。对于没有折扣的情节任务() 上述总和趋于无穷大。但是,如果我们知道剧集长度, 我们可以用作为上限。
在任何强化学习问题中,不仅仅是深度强化学习,累积奖励都有一个上限,前提是问题是偶发的并且不继续。
如果问题是偶发的,并且奖励的设计使得问题有一个自然的结局,即无论智能体在环境中表现如何,这一集都会结束,那么你可以通过计算每个问题的最大可能奖励来解决这个问题剧集的步骤;但是,这可能并不重要,具体取决于您的环境。
然而,举个简单的例子,想象一下cartpole的问题——我可以将MDP定义为agent能够平衡杆直立的每个时间步的奖励为+1,当杆倒下时奖励为0 . 如果我还定义了问题在 200 个时间步后终止,那么这个问题的累积奖励上限将为 200。
一般来说,如果问题继续存在,那么理论上问题会无限持续,因此没有上限,因为情节永远不会结束——这就是我们使用折扣因子的部分原因,以确保收敛。