人工智能 - 我们是否需要一个明确的政策来采样一个'A′为了计算 SARSA 或 Q 学习中的目标？ - 吾爱随笔录

我们是否需要一个明确的政策来采样一个'A′为了计算 SARSA 或 Q 学习中的目标？

人工智能强化学习比较 q学习萨尔萨

2021-11-03 04:54:25

如果您能就有关 SARSA 和 Q-learning 目标的问题指出正确的方向，我将不胜感激（符号： $S$ 是当前状态， $A$ 是当前动作， $R$ 是奖励， $S'$ 是下一个状态并且 $A'$ 是从下一个状态中选择的动作）。

我们是否需要一个明确的策略来让 Q-learning 目标进行采样 $A'$ 从？而对于 SARSA 呢？

我想这对于 Q 学习来说是正确的，因为我们需要获得最大 Q 值来确定哪个动作 $A'$ 我们将用于更新。对于 SARSA，我们更新 $Q(S, A)$ 取决于实际采取的行动（不需要最大值）。如果我错了，请纠正我。

1个回答

Q-learning 使用探索性策略，从当前估计的 $Q$ 功能，例如 $\epsilon$ -贪婪策略，选择动作 $a$ 从目前的状态 $s$ . 采取此行动后 $a$ 从 $s$ ，奖励 $r$ 和下一个状态 $s'$ 被观察到。此时，更新估计值 $Q$ 函数，你使用一个假设贪婪动作是从下一个状态开始的目标 $s'$ . 贪心动作由 $\operatorname{max}$ 运算符，因此可以将其视为隐式策略（但此术语并不常见，AFAIK），因此，在这种情况下，贪婪动作是与最高 $Q$ 国家价值 $s'$ .

在 SARSA 中，没有 $\operatorname{max}$ 运算符被使用，并且您派生出一个策略（例如 $\epsilon$ -贪婪政策）从目前的估计 $Q$ 选择两者的功能 $a$ （从 $s$ ）和 $a'$ （从 $s'$ ）。

总而言之，在所有情况下，这些政策都是隐含的，因为它们是从对 $Q$ 函数，但这不是一个通用术语。另请参阅此答案，其中我更详细地描述了 Q-learning 和 SARSA 之间的差异，并且我还展示了这两种算法的伪代码，您应该阅读（多次）以充分理解它们的差异。

其它你可能感兴趣的问题

上一篇如何将监督学习视为给定输入的标签的条件概率？下一篇什么是级联卷积神经网络？