每个决策重要性抽样估计量的一致性证明假设独立于
见“ Eligibility Traces for Off-Policy Policy Evaluation ”中定理 1 的证明。
结果也在Sutton 和 Barto 的 RL 书中的公式 (5.14) 中说明。
我猜这本身就是假设之间的独立性的结果
我不明白如何证明这个假设是合理的。考虑一个近乎确定的政策的极端情况和确定性 MDP 动力学。在我看来,上面的两个值肯定不是独立的。
我错过了什么吗?
每个决策重要性抽样估计量的一致性证明假设独立于
见“ Eligibility Traces for Off-Policy Policy Evaluation ”中定理 1 的证明。
结果也在Sutton 和 Barto 的 RL 书中的公式 (5.14) 中说明。
我猜这本身就是假设之间的独立性的结果
我不明白如何证明这个假设是合理的。考虑一个近乎确定的政策的极端情况和确定性 MDP 动力学。在我看来,上面的两个值肯定不是独立的。
我错过了什么吗?
这是马尔可夫假设的结果,它支撑着所有的强化学习。
马尔可夫假设说,在决定我们移动到后续状态的可能性时,我们如何到达给定状态并不重要,只有我们到达了它。这自然意味着我们对行动的选择也必须仅取决于当前状态。
你是对的,这个假设有些不切实际。然而,它通常可以在不涉及太多状态变量的情况下产生对真实动态的合理近似。通过解决这个近似,我们希望找到一个在实际问题中也能很好地工作的策略。
这是一个例子。在机器人导航中,机器人的真实动态确实取决于机器人过去所处的位置,因为随着机器人的电池电量耗尽,它输出的电压水平会发生轻微变化,并且它的轮子可能会变得更容易打滑。因此,从逻辑上讲,我们对动作的选择应该根据当前状态和我们在先前状态中的动作选择(这或多或少地耗尽电池)而改变。但是,如果我们尝试将其合并到模型中,我们最终会在动力学函数的大小上出现组合爆炸它实际上捕获了这个过程(特别是,它现在将是 2t 个输入的函数)。反过来,这将需要我们的政策复杂性的组合爆炸(它将以2t的指数增加复杂性)。为了使事情易于处理,我们接受动态将变得有损,或者我们可以向本地状态(例如电池电量)添加一些额外的细节,以便以马尔可夫方式捕捉更复杂的动态。不管怎样,我们将回到一个未来行动将不依赖于过去行动的世界。
更清楚地说,如果我们假设对于任何,那么您提到的其他关系应该不足为奇。该假设是马尔可夫假设。它将状态转换函数转换为表示马尔可夫链的矩阵。如果我们不做这个假设,那么大多数 RL 算法都不适用于我们的问题。