我们在 TD-learning action-value Q 或 state-value V 中采样的期望值是什么?

人工智能 强化学习 蒙特卡罗方法 时差法 价值函数 返回
2021-11-17 17:32:32

MC 和 TD 都是无模型的,它们都遵循样本轨迹(在 TD 的情况下,轨迹被缩短)来估计回报(我们基本上是在采样 Q 值)。除此之外,两种算法的底层结构完全相同。但是,从我阅读的博客和文本中,方程式用 V 而不是 Q 表示。为什么会这样?

1个回答

但是,从我阅读的博客和文本中,方程式用 V 而不是 Q 表示。为什么会这样?

MC 和 TD 是基于在后续时间步中获得的经验,将值估计与时间步相关联的方法。跨时间关联什么样的价值估计并不重要,因为所有价值函数通常都表达相同的东西,即预期回报取决于 MDP 中的“当前位置”。在 MC 中,关联直接与采样回报,在 TD 中,与即时奖励和后期价值估计的采样组合 - 在 TD 中最常见的是相同类型的价值估计(例如,将后期状态值估计与状态值匹配)。

两种方法都可以从状态值 (V) 和动作值 (Q) 函数的角度进行分析和使用。它们也适用于其他价值函数——例如后态值。

教科书和教程通常使用稍微简单的状态值函数来解释 MC 或 TD 学习的一般工作原理,而不是用于任何目的。您还可以在 MC 和 TD 中使用状态值函数进行无模型策略评估。

但是,如果没有模型,您就不能使用状态值函数进行控制(即学习最优策略)。要使用状态值选择最佳操作,您需要执行以下操作:

π(s)=argmaxa[r,sp(r,s|s,a)(r+γv(s))]

这里的问题是p(r,s|s,a)是环境的模型。因此,如果需要,控制方法将不是无模型的。

因此,当您在控制场景中学习 MC 或 TD 时,使用无模型方法来学习最优策略,那么您通常需要使用动作值(有时您可以使用后状态值,如果动作涉及直接选择下一个状态) .

使用动作价值函数,贪心策略变为:

π(s)=argmaxaq(s,a)

这不涉及任何环境模型。所以当你没有它时可以使用它。