MC 和 TD 都是无模型的,它们都遵循样本轨迹(在 TD 的情况下,轨迹被缩短)来估计回报(我们基本上是在采样 Q 值)。除此之外,两种算法的底层结构完全相同。但是,从我阅读的博客和文本中,方程式用 V 而不是 Q 表示。为什么会这样?
我们在 TD-learning action-value Q 或 state-value V 中采样的期望值是什么?
人工智能
强化学习
蒙特卡罗方法
时差法
价值函数
返回
2021-11-17 17:32:32
1个回答
但是,从我阅读的博客和文本中,方程式用 V 而不是 Q 表示。为什么会这样?
MC 和 TD 是基于在后续时间步中获得的经验,将值估计与时间步相关联的方法。跨时间关联什么样的价值估计并不重要,因为所有价值函数通常都表达相同的东西,即预期回报取决于 MDP 中的“当前位置”。在 MC 中,关联直接与采样回报,在 TD 中,与即时奖励和后期价值估计的采样组合 - 在 TD 中最常见的是相同类型的价值估计(例如,将后期状态值估计与状态值匹配)。
两种方法都可以从状态值 (V) 和动作值 (Q) 函数的角度进行分析和使用。它们也适用于其他价值函数——例如后态值。
教科书和教程通常使用稍微简单的状态值函数来解释 MC 或 TD 学习的一般工作原理,而不是用于任何目的。您还可以在 MC 和 TD 中使用状态值函数进行无模型策略评估。
但是,如果没有模型,您就不能使用状态值函数进行控制(即学习最优策略)。要使用状态值选择最佳操作,您需要执行以下操作:
这里的问题是是环境的模型。因此,如果需要,控制方法将不是无模型的。
因此,当您在控制场景中学习 MC 或 TD 时,使用无模型方法来学习最优策略,那么您通常需要使用动作值(有时您可以使用后状态值,如果动作涉及直接选择下一个状态) .
使用动作价值函数,贪心策略变为:
这不涉及任何环境模型。所以当你没有它时可以使用它。